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Loi tac gia 


Những năm gan day, trí tuệ nhân tao (artificial intelligence-AI) nói lên như một bang chứng 
của cuộc cách mạng công nghiệp lần thứ tư (1-dóng cơ hơi nước, 2-năng lượng điện, 3-công 
nghệ thông tin). Trí tuệ nhân tạo đã và đang trở thành thành phần cốt lõi trong các hệ 
thống công nghệ cao. Nó đã len lỏi vào hầu hết các lĩnh vực trong đời sóng mà có thể chúng 
ta không nhận ra. Xe tự hành của Google và Tesla, hệ thống tự tag khuôn mặt trong ảnh 
của Facebook; trợ lý ảo Siri của Apple, hệ thống gợi ý sản phẩm của Amazon, hệ thống gợi 
ý phim của Netflix, hệ thống dich đa ngôn ngữ Google Translate, máy chơi cờ vây AlphaGo 
và gần đây là AlphaGo Zero của Google DeepMind, v.v., chỉ là một vài ứng dụng nổi bật 
trong vô vàn những ứng dụng của trí tuệ nhân tạo. 


Học máu (machine learning-ML) là một tập con của trí tuệ nhân tạo. Nó là một lĩnh vực 
nhỏ trong khoa học máy tính, có khả năng tự học hói dựa trên dữ liệu được đưa vào mà 
không cần phải được lập trình cụ thể (Machine Learning is the subfiled of computer science, 
that “gives computers the ability to learn without being explicitly programmed"-Wikipedia). 


Những năm gan đây, sự phát triển của các hệ thống tính toán cùng với lượng dữ liệu khong 
lồ được thu thập bởi các hãng công nghệ lớn đã giúp machine learning tiến thêm một bước 
dài. Một lĩnh vực mới được ra đời được goi là hoc sáu (deep learning-DL). Deep learning đã 
giúp máy tính thực thi những việc tưởng chừng như không thể vào mười năm trước: phân 
loại cả ngàn vật thể khác nhau trong các bức ảnh, tự tạo chú thích cho ảnh, bắt chước giọng 
nói và chữ viết của con người, giao tiếp với con người, chuyển đổi ngôn ngữ, hay thậm chí 
cả sáng tác văn thơ hay âm nhac!. 


Mói quan hệ AI-ML-DL 


Deep learning là một tập con của machine learning. Machine learning là mót tập con 
cua artificial intelligence (xem Hinh 0.1). 


* Đọc thêm: 8 Inspirational Applications of Deep Learning (https: // goo.gl/ Ds3rRy) 
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Since an early flush of optimism in the 1950s, smaller subsets of artificial intelligence - first machine learning, then 
deep learning, a subset of machine learning - have created ever larger disruptions. 


Hình 0.1: Mối quan hệ giữa artificial intelligence, machine learning, vá deep learning (Nguón 
What's the Difference Between Artificial Intelligence, Machine Learning, and Deep Learning?— 
https: // goo.gl/ NNwGCi). 


0.1 Muc dích cúa cuón sách 


Những phát triển thần ky của trí tué nhân tạo dẫn đến nhu cầu cao về nhân lực những 
ngành khoa hoc dit liệu, machine learning, và các ngành liên quan trên toàn thế giới cũng 
như ở Việt Nam trong những năm sắp tới. Đó cũng là động lực để tôi bắt đầu viết blog 
Machine Learning cơ ban (https: //machinelearningcoban.com) từ đầu năm 2017. Tính tới 
thời điểm tôi viết những dòng này, trang blog đã có hơn 650 ngàn lượt ghé thăm. Facebook 
page Machine Learning cơ bản (https: //g00.gl/wyUEjr) của blog cũng đã có hon 10 nghìn 
lượt likes, Forum Machine Learning cơ bản (https://goo.gl/gDPTKX ) có gần 8 nghìn thành 
viên. Trong quá trình viết blog và duy trì các trang Facebook, tôi nhận được rất nhiều những 
ủng hộ của ban doc về tinh thần cũng như vật chất. Ngoài ra, rất nhiều ban doc đã khuyến 
khích tôi tổng hợp những kiến thức trên blog lại thành một cuốn sách cho cộng đồng những 
người làm machine learning sử dụng tiếng Việt. Những sự ủng hộ và lời động viên đó là động 
lực lớn cho tôi bắt tay vào thực hiện và hoàn thành cuốn sách này. 


Lãnh vực machine learning và deep learning là cực kỳ rộng lớn và có nhiều nhánh nhỏ. Để 
đi sâu vào từng nhánh, một cuốn sách chắc chắn không thể bao quát được mọi vấn đề. Mục 
đích chính của cuốn sách này là cung cấp cho các bạn những khái niệm, kỹ thuật chung và 
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các thuát toán co bán nhát cúa machine learning. Tù dó, ban doc muón di sâu vào tùng ván 
dé cụ thể có thể tim đọc thêm các tài liệu, cuốn sách, và khoá học liên quan. 


Hãy luôn nhớ rằng đơn giản trước hết. Khi bắt tay vào giải quyết một bài toán machine 
learning hay bất cứ bài toán nào, chúng ta nên bắt đầu từ những thuật toán đơn giản nhất. 
Không nên nghĩ rằng chỉ có những thuật toán phức tạp mới có thể giải quyết được vấn dé. 
Những thuật toán phức tạp thường yêu cầu độ tính toán cao và nhạy cảm với cách chọn 
các tham số đầu vào. Thêm vào đó, những thuật toán đơn giản giúp chúng ta sớm có một 
mô hình tổng quát cho mỗi bài toán. Kết quả của các thuật toán đơn giản, thường được gọi 
là baseline, cũng giúp chúng ta có cái nhìn ban đầu vé sự phức tạp của mỗi bài toán. Việc 
cải thiện kết quả sẽ được dần thực hiện ở các bước sau. Cuốn sách này sẽ giúp các bạn có 
những cái nhìn đầu tiên và các hướng giải quyết cho các bài toán machine learning. Để có 
các sản phẩm thực tiễn, chúng ta sẽ phải học hỏi và thực hành thêm rất nhiều. 


0.2 Hướng tiếp cận của cuốn sách 


Để giải quyết mỗi bài toán machine learning, chúng ta cần chọn một mô hình phù hợp. Mô 
hình này được mô tả bởi bộ các tham số, có thể lên tới cả triệu tham số, mà chúng ta cần 
đi tìm. Thông thường, bộ các tham số này được tìm bằng cách giải một bài toán tối ưu. 


Khi viết về các thuật toán machine learning, tôi sẽ bắt đầu bằng những ý tưởng trực quan, 
theo sau bởi một mô hình toán học mô tả ý tưởng đó. Các tham số mô hình được tìm bằng 
cách tối ưu mô hình toán học đó. Các suy luận toán học và các ví dụ mẫu trên Python ở 
cuối mỗi bài sẽ giúp bạn đọc hiểu rõ hơn về nguồn gốc, ý nghĩa, và cách sử dụng mỗi thuật 
toán. Xen kẽ giữa các phần về các thuật toán machine learning, tôi cũng sẽ giới thiệu các 
kỹ thuật tối ưu cơ bản, với hy vọng giúp bạn đọc hiểu rõ hơn về bản chất của vấn đề. 


0.3 Đối tượng của cuốn sách 


Cuốn sách được thực hiện hướng đến nhiều nhóm độc giả khác nhau. Nếu bạn không thực 
sự muốn đi sâu vào phần toán, bạn vẫn có thể tham khảo source code và cách sử dụng các 
thư viện. Nhưng để sử dụng các thư viện một cách hiệu quả, bạn cũng cần hiểu nguồn gốc 
của mô hình và ý nghĩa của các tham số. Nếu bạn thực sự muốn tìm hiểu nguồn gốc, ý nghĩa 
của các thuật toán, bạn có thể học được nhiều điều từ cách xây dựng và tối ưu các mô hình. 
Phần tổng hợp các kiến thức toán cần thiết trong Phần I sẽ là một nguồn tham khảo súc 
tích bất cứ khi nào bạn có thắc mắc về các dẫn giải toán hoc trong sách”. Phan VII được 
dành riêng để nói về tối ưu lồi một mảng rất quan trọng trong tối ưu, phù hợp với các bạn 
thực sự muốn đi sâu thêm về tối ưu. 


Rất nhiều hình vẽ trong cuốn sách được vẽ dưới dạng vector graphics (độ phân giải rất cao), 
có thể được dùng trong các bài giảng hoặc thuyết trình. Các kiến thức trong sách cũng được 
sắp xếp theo thứ tự từ dễ đến khó, vì vậy cuốn sách cũng được hy vọng là một cuốn giáo 
trình cho các khoá hoc machine learning tiếng Việt. 


2 Ban đọc chưa quen với nhiều khái niệm toán học trong phần này có thể đọc từ Phần II và quay lại bất cứ khi nào 
bạn gặp khó khăn. 
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Các dẫn giải toán hoc được xây dựng phù hợp với chương trình toán phổ thông và đại hoc ở 
Việt Nam. Các từ khoá khi được dịch sang tiếng Việt đều dựa trên những tài liệu tôi được 
học trong nhiều năm học toán tại Việt Nam. Các thuật ngữ tiếng Anh cũng thường xuyên 
được sử dụng, với hy vọng giúp bạn đọc dần làm quen với các tài liệu tiếng Anh, và giúp 
các bạn học đại học ở nước ngoài có thể tiếp cận. Phần cuối cùng của sách có mục Index 
các thuật ngữ quan trọng bằng tiếng Anh và nghĩa tiếng Việt đi kèm nếu tôi tìm được cách 
dịch phù hợp. 


0.4 Yêu cầu về kiến thức 


Để có thể bắt đầu đọc cuốn sách này, bạn cần có một kiến thức nhất định về đại số tuyến 
tính, giải tích ma trận, xác suất thống kê, và kỹ năng lập trình. 


Phần I của cuốn sách ôn tập lại các kiến thức toán quan trọng cho machine learning. Bất 
cứ khi nào bạn đọc gặp khó khăn về toán, bạn được khuyến khích đọc lại các chương trong 
phần này. 


Ngôn ngữ lập trình được sử dụng trong cuốn sách là Python. Ly do tôi sử dụng ngôn ngữ 
này vì đây là một ngôn ngữ lập trình miễn phí, có thể được cài đặt dễ dàng trên các nền tảng 
hệ điều hành khác nhau. Quan trọng hơn, có rất nhiều các thư viện hỗ trợ machine learning 
cũng như deep learning được viết cho Python. Có hai thư viện python chính thường được 
sử dung trong cuốn sách là numpy và scikit-learn. Numpy (http: //www.numpy.org/) là một 
thư viện phổ biến giúp xử lý các phép toán liên quan đến các mảng nhiều chiều, với các hàm 
gần gũi với đại số tuyến tính. Nếu bạn đọc chưa quen thuộc với numpy, bạn có thể tham gia 
một khoá học ngắn miễn phí trên trang web kèm theo cuốn sách này (https: // fundaml.com). 
Bạn sẽ được làm quen với cách xử lý các mảng nhiều chiều với nhiều ví dụ và bài tập thực 
hành trực tiếp trên trình duyệt. Các kỹ thuật xử lý mảng trong cuốn sách này đều được 
đề cập tại đây. Scikit-learn, hay sklearn, (http: // scikit-learn.org/) là một thư viện chứa rất 
nhiều các thuật toán machine learning cơ bản và rất dễ sử dụng. Tài liệu của scikit-learn 
cũng là một nguồn chất lượng cho các bạn làm machine learning. Scikit-learn sẽ được dùng 
trong cuốn sách như một cách kiểm chứng lại các kết quả mà chúng ta thực hiện dựa trên 
suy luận toán học cũng như lập trình thông qua numpy. 


Tất nhiên, các thư viện machine learning hiện nay rất phổ biến và có những bạn có thể tạo 
ra sản phẩm bằng cách chỉ sử dụng những thư viện này mà không cần nhiều kiến thức toán. 
Tuy nhiên, cuốn sách này không hướng tới việc sử dụng các thư viện sẵn có mà không hiểu 
bản chất đằng sau của chúng. Việc sử dụng các thư viện cũng yêu cầu những kiến thức nhất 
định về việc lựa chọn và điều chỉnh tham số mô hình. 


0.5 Source code đi kèm 
Toàn bộ source code trong cuốn sách có thể được tìm thay tai https: // github.com/ tiepvupsu/ 


ebookML_ src. Các file có đuôi . ipynb là các file chứa code (Jupyter notebook). Các file có 
đuôi .pdf, .png là các hinh tạo được từ file . ipynb. 
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0.6 Bó cục của cuốn sách 

Cuốn sách này được chia thành 8 phần và sẽ tiếp tục được cập nhật: 

Phần I ôn tập lại cho bạn đọc những kiến thức quan trong trong đại số tuyến tính, giải tích 
ma trận, xác suất, và hai phương pháp phổ biến trong việc ước lượng tham số cho các mô 
hình machine learning thống kê. 

Phần II giới thiệu các khái niệm cơ bản trong machine learning, kỹ thuật xây dung vector 
đặc trưng cho dữ liệu, một mô hinh machine learning cơ bàn-linear regression, và một hiện 
tượng cần tránh khi xây dựng các mô hình machine learning. 

Phần III giúp các bạn làm quen với các mô hình machine learning rất trực quan, không yêu 
cầu nhiều kiến thức toán phức tạp. Qua đây, bạn đọc sẽ có cái nhìn đầu tiên về việc xây 
dựng các mô hình machine learning. 

Phần IV đề cập tới một lớp các thuật toán machine learning phổ biến nhất-neural networks, 
là nền tảng cho các mô hình deep learning phức tạp hiện nay. Phần này cũng giới thiệu một 
kỹ thuật cơ bản và hữu dụng trong việc giải quyết các bài toán tối uu không ràng buộc. 
Phần V giới thiệu về các kỹ thuật thường dùng trong các hệ thống khuyến nghị san phầm. 
Phan VI giới thiệu các kỹ thuật giảm chiều dit liệu. 


Phần VII mang lại cho các bạn một cái nhìn bao quát hơn về tối ưu, đặc biệt là tối ưu lồi. 
Các bài toán tối ưu lồi có ràng buộc cũng được giới thiệu trong phần này. 


Phần VIII giới thiệu các thuật toán phân lớp dựa trên ý tưởng của support vector machine. 
0.7 Các lưu ý về ký hiệu 


Các ký hiệu toán học trong sách được mô tả ở Bảng 0.1 và đầu Chương 1. Các khung với 
font chữ có chiều rộng các ký tự như nhau được dùng để chứa các đoạn source code. 


text in a box with constant width represents source codes. 


Các đoạn ký tự với constant width, deep red, 'string, dark green’ được dùng dé chi các 
biến, hàm số, chuỗi, v.v., trong các đoạn code. 


Đóng khung và in nghiêng 


Các khái niệm, định nghĩa, định ly, và lưu ý quan trọng được đóng khung và in nghiêng. 


Kú tự phân cách giữa phần nguyên uà phần thập phân của các số thực là dấu chấm, 


^^ thay vi dấu pháy, <’, như trong các tài liệu tiếng Việt khác. Cách làm nay thống 
nhất uới các tài liệu tiếng Anh vá các ngôn ngữ lập trành. 
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0.8 Tham kháo thém 


Có rất nhiều những cuốn sách, khoá hoc, website hay vé machine learning cũng nhu deep 
learning, trong dó, có mót só mà tói muón dác biét nhán manh: 


0.8.1 Khoá hoc 
1. Khóa hoc Machine Learning của Andrew Ng trên Coursera (https:// goo.gl/ WBwUSK ). 


2. Khoá hoc mới Deep Learning Specialization cũng của Andrew Ng (https: // goo.gl/ 
ssXfYN). 


3. Các khoá CS224n: Natural Language Processing with Deep Learning (https: // goo.gl/ 
6XTNkH); CS231m: Convolutional Neural Networks for Visual Recognition (http:// 
cs231n.stanford.edu/); C246: Mining Massive Data Sets (https:// goo.gl/ TEMQ9H ) 
cüa Stanford. 


4. Introduction to Computer Science and Programming Using Python (https:// goo.gl/ 
4nNXvJ) của MIT. 


0.8.2 Sách 


1. C. Bishop, Pattern Recognition and Machine Learning (https: // goo.gl/ pjggRr), Springer, 
2006 [Bis06]. 


2. I. Goodfellow et al., Deep Learning (https: // goo.gl/ sXaGwV ), MIT press, 2016 [GBC16]. 


3. J. Friedman et al, The Elements of Statistical Learning (https:// goo.gl/ Qh9EKB), 
Springer, 2001 [FHT0I]. 


4. Y. Abu-Mostafa et al., Learning from data (https:// goo.gl/ SRÍNFJ), AMLBook New 
York, 2012 [AMMIL1]. 


5. S. JD Prince, Computer Vision: Models, Learning, and Inference (https: // goo.gl/ 9Fchf3), 
Cambridge University Press, 2012 [Pri12]. 


6. S. Boyd et al., Convex Optimization (https: // goo.gl/ NomDpC), Cambridge university 
press, 2004 [BV04]. 
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0.9 Đóng góp ý kiến 


Mọi ý kiến đóng góp, phản hồi, báo lỗi cho nội dung của cuốn sách được tốt hơn đều 
đáng quý. Các ban có thể gửi ý kiến tới vuhuutiepQgmail.com hoặc tạo một issue mới tại 
https: // goo.gl/ zZPYWKV. 


Cuốn sách sẽ tiếp tục được chỉnh sửa và thêm các chương mới cho tới khi bán sách giấu được 
ra mắt. Tất cả các bạn đã đặt ebook sẽ nhận được các bản cập nhật và một bản sách giấy 
(dự tính vào giữa năm 2018). 


0.10 Vẫn đề bản quyền 


Toàn bộ nội dung trên blog cũng như cuốn sách này (bao gồm cả source code và hình ảnh 
minh hoạ) đều thuộc bản quyền của tôi-Vũ Hữu Tiệp. 


Toi rất mong muốn kiến thức của minh tạo ra đến được với nhiều ban doc. Tuy nhiên, tôi 
không ủng hộ bất kỳ một hình thức sao chép không trích nguồn nào. Mọi trích dẫn cần được 
nêu rõ tên cuốn sách, tên tác giả (Vũ Hữu Tiệp), và link gốc tới blog. Các bài viết trích dẫn 
quá 25% toàn văn bất kỳ một post nào trên blog hoặc một chương trong cuốn sách này đều 
không được phép, trừ trường hợp có sự đồng ý của tác giả. 


Mọi vấn đề liên quan đến sao chép, phân phát, đăng tải, sử dụng sách và blog, cũng như 
trao đổi, cộng tác, xin vui lòng liên hệ với tôi tại địa chỉ email vuhuutiepQgmail.com. 


0.11 Lời cảm ơn 


Trước hết, tôi xin cảm ơn bạn bè trong friend list Facebook của tôi đã nhiệt tình ủng hộ và 
chia sẻ blog ngay ngày đầu blog được ra mắt. Tôi cũng xin chân thành cảm ơn bạn đọc blog 
Machine Learning cơ bản và Facebook page Machine Learning cơ bản đã đồng hành cùng 
tôi trong suốt một năm qua. Không có độc giả, chắc chắn tôi không có đủ động lực viết hơn 
30 bài trên blog và rất nhiều các ghi chép nhanh trên Facebook page. 


Trong quá trình viết blog, tôi nhận được rất rất nhiều sự ủng hộ của bạn đọc về cả vật chất 
lẫn tỉnh thần. Không có những sự ủng hộ đó và những lời động viên viết sách, dự án này sẽ 
không thể được bắt đầu. Khi tôi đã bắt đầu, số lượng pre-order cuốn sách này tăng lên từng 
ngày. Tôi thực sự biết ơn các bạn đã pre-order cũng những lời nhắn gửi ấm áp. Quan trọng 
hơn hết, số lượng sách được đặt trước khi tôi hoàn thành khiến tôi tin rằng sản phẩm mình 
tạo ra đã mang lại những giá trị nhất định cho cộng đồng. Những điều đó góp phần tôi duy 
trì tỉnh thần làm việc và cố gắng hết mình để tạo ra một sản phẩm chất lượng. 


Tôi may mắn nhận được những phản hồi tích cực cũng như các góp ý từ các thầy cô trong 
các trường đại học lớn trong và ngoài nước. Tồi xin được gửi lời cảm ơn tới thầy Phạm Ngọc 
Nam và cô Nguyễn Việt Hương (DH Bách Khoa Hà Nội), thầy Chế Viết Nhật Anh (DH 
Bách Khoa Tp.HCM), thầy Nguyễn Thanh Tùng (DH Thuỷ Lợi), thầy Trần Duy Trác (DH 
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Johns Hopkins), và anh Nguyễn Hồng Lâm (người hướng dẫn trong thời gian tôi thực tập 
tại U.S. Army Research Lab). 


Tôi đặc biệt cảm ơn bạn Nguyễn Hoàng Linh và Hoàng Đức Huy, Đại học Waterloo-Canada, 
những người bạn đã nhiệt tình giúp tôi xây dựng trang FundaML.com giúp ban đọc có thể 
hoc Python/Numpy trực tiếp trên trình duyệt. Tôi cũng xin cám ơn ban Lê Việt Hai-nghién 
cứu sinh ngành toán ứng dụng tại Penn State, và Đinh Hoàng Phong-kỹ sư phần mềm tại 
Facebook-dá góp ý sửa đổi rất nhiều điểm về ngôn ngữ và toán trong các bản nháp. Tôi tin 
rằng cuốn sách đã được sửa đổi rất nhiều so với phiên bản trên blog. 


Tôi xin cám ơn ba người bạn thân-Nguyễn Tiến Cường, Nguyễn Văn Giang, Và Dinh Quyén- 
đã luôn động viên tôi và đóng góp nhiều phản hồi quý giá cho cuốn sách. Ngoài ra, tôi xin 
cảm ơn những người bạn thân thiết khác của tôi tại Penn State đã luôn bên cạnh tôi trong 
thời gian tôi thực hiện dự án, bao gồm gia đình anh Triệu Thanh Quang, gia đình anh 
Trần Quốc Long, bạn thân (cũng là một blogger) Nguyễn Phương Chi, và các đồng nghiệp 
John McKay, Tiantong Guo, Hojjat Mousavi, Omar Aldayel, và Mohammad Tofighi trong 
Phòng nghiên cứu Xử lý Thông tin và Thuật toán (Information Processing and Algorithm 
Laboratory-IPAL), DH bang Pennsylvania. 


Cuối cùng và quan trọng nhất, tôi xin cảm ơn gia đình tôi, những người luôn ủng hộ tôi vô 
điều kiện và hỗ trợ tôi hết mình trong quá trình tôi thực hiện dự án này. 
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0.12 Bang cac ky hiéu 
Cac ký hiệu sử dung trong sách được liệt ké trong Bang 0.1 


Bang 0.1: Bang các ký hiệu 


Ký hiệu |Ý nghĩa 


x,y, N, klin nghiêng, thường hoặc hoa, là các số vô hướng 


x,y |in đậm, chữ thường, là các vector 


X,Y |in đậm, chữ hoa, là các ma trận 


R tập hợp các số thực 


Ñ tập hợp các số tự nhiên 


C tập hợp các só phức 


R”  |tàp hợp các vector thực có m phần tử 


R™*” [tap hợp các ma trận thực có m hàng, n cột 


S" tập hợp các ma trận vuông dói xứng bậc n 


se tập hợp các ma trận nửa xác định dương bậc n 


St, |tập hợp các ma trận xác định dương bậc n 


€ phán tú thuóc táp hop 


tón tai 


V moi 
A 


ký hiệu là/bởi. Ví du a ê f(x) nghĩa là “ký hiệu f(x) bởi a”. 


x;  |phần tử thứ i (tính từ 1) của vector x 


sen(x) |hàm xác định dấu. Bằng 1 nếu x > 0, bằng -1 néu x < 0. 


exp(z) |e” 


log(z) |logarit tự nhiên của só thuc duong x 


aij  |phàn tử hàng thứ i, cột thứ j của ma trận A 


AT chuyển vị của ma trận A 


AH chuyén vi lién hgp (Hermitian) cüa ma trán phüc A 


A ! Inghich đảo của ma tràn vuông A, nếu tồn tai 


A!  |già nghịch đảo của ma trận không nhất thiết vuông A 


A-T |chuyển vị của nghịch đảo của ma trận A, nếu tồn tai 


|xllp |p norm của vector x 


LA || Frobenius norm của ma tràn A 


diag( A) |đường chéo chính của ma tràn A 


trace(A) trace cúa ma trán A 


det(A) |dinh thúc cúa ma tràn vuóng A 


rank(A) |hang cúa ma trán A 


o.w [otherwise — trong các trường hợp còn lai 


a dao hàm của ham só f theo x € R 

Vxf gradient (dao hàm) của hàm só f theo x (x là vector hoặc ma trân) 

v? đạo hàm bậc hai của hàm só ƒ theo x, còn được gọi là Hessian 

@ Hadamard product (elemenwise product). Phép nhân từng phần tử của hai vector hoặc ma trận cùng kích thước. 
œ tỉ lệ với 


v.v. ván ván 
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Phần I 


Kién thúc toán co bán cho machine learning 


Chuong 1 


Ón táp Dai só tuyén tính 


1.1 Lưu ý về ký hiệu 


Trong các bài viết của tôi, các số vô hướng được biểu diễn bởi các chữ cái viết ở dạng in 
nghiêng, có thể viết hoa, ví du z1, N, y, k. Các vector được biểu diễn bằng các chữ cái thường 
in đậm, ví dụ y,xị. Nếu không giải thích gì thêm, các vector được mặc định hiểu là các 
vector cột. Các ma trận được biểu diễn bởi các chữ viết hoa in đậm, ví du X, Y, W. 


Đối với vector, x = [2,, 2, ..., Tn] được hiểu là một vector hang, và x = [z1; £2; ... ; £n] được 
hiểu là vector cột. Chú ý sự khác nhau giữa dau phẩy (,) và dấu chấm phẩy (;). Day chính 
là ký hiệu được Matlab sử dụng. Nếu không giải thích gì thêm, một chữ cái viết thường in 
đậm được hiểu là một vector cột. 


Tương tự, trong ma trận, X = [x,,X2,...,Xn) được hiểu là các vector cột x; được đặt cạnh 
nhau theo thứ tự từ trái qua phải để tạo ra ma trận X. Trong khi X = [xi;Xa;...; Xm] được 
hiểu là các vector x; được đặt chồng lên nhau theo thứ tự từ trên xuống dưới dé tạo ra ma 
trận X. Các vector được ngầm hiểu là có kích thước phù hợp để có thể xếp cạnh hoặc xếp 
chóng lén nhau. Phan tử ở hàng thứ i, cột thứ j được ký hiệu là x;. 


Cho một ma trận W, nếu không giải thích gì thêm, chúng ta hiểu rằng w; là vector cột 
thứ i của ma trận đó. Chú ý sự tương ứng giữa ký tự viết hoa và viết thường. 


1.2 Chuyển vị và Hermitian 


Một toán tử quan trọng của ma trận hay vector là toán tử chuyén vi (transpose). 


Cho A € R?'*", ta nói B € R?*" là chuyển vị của A nếu b; = aj, Vi << n,1< j <m. 


Một cách ngắn gọn, chuyển vị của một ma trận là một ma trận nhận được từ ma trận cũ 
thông qua phép phản xạ gương qua đường chéo chính của ma trận ban đầu. Toán tử chuyển 
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vị thường được ký hiểu bởi chữ 7, t hoặc ký tự T. Trong cuốn sách này, chúng ta sé sử dung 
chữ cái T. Ví dụ, chuyển vị của một vector x được ký hiệu là x”; chuyển vị của một ma trận 
A được ký hiệu là AT. Cụ thể: 


X1 011 012 ... Ain Q11 091 ... Am1 


a21 G22... Aan Q19 092 ... AM2 
x=)|.|=>x = [z1 £2... Em]; A= . > AT = 


Tm Am1 Am2 - - - Amn Ain An --- Amn 


Nếu A € R™” thì AT € R”*™, Nếu AT = A, ta nói A là một ma trận đối xứng (symmetric 
matrix). 

Trong trường hợp vector hay ma trận có các phần tử là số phức, việc lấy chuyển vi thường 
đi kèm với việc lấy liên hợp phức. Tức là ngoài việc đổi vị trí của các phần tử, ta còn lấy 
liên hợp phức của các phần tử đó. Tên gọi của phép toán chuyển vị và lấy liên hợp này còn 
được gọi là chuyển vi liên hợp (conjugate transpose), và thường được ký hiệu bằng chữ H 
thay cho chữ T. Chuyển vị liên hợp của một ma trận A được ký hiệu là AP (cũng được đọc 
là A Hermitian). 


Cho A € C?'*^, ta nói B € C”*” là chuyển vị liên hợp của A nếu bij = ām, VISIEmlse 
j < m, trong đó a là liên hiệp phức của a. 


Ví dụ: 


| J1+93/ 3-4i g [1-2i -ij [243% X ee 
an [EM S24 sarcoma PM aur nos cap 0á) 


Nếu A, x là các ma trận và vector thuc thi A? = AT, xP = xT. 


Nếu chuyển vị liên hợp của một ma trận phức bằng với chính nó, A” = A, thì ta nói ma 
trận đó là Hermitian. 


1.3 Phép nhân hai ma trận 


Cho hai ma tran A € R"*^". B € R?*?, tích của hai ma trận được ký hiệu là C = AB € R™*? 
trong đó phần tử ở hàng thứ ¿, cột thứ 7 của ma trận kết quả được tính bởi: 


dụ = Y agb, VI Si <m,1< j<p (ka) 
k=1 


Để nhân được hai ma trận, số cột của ma trận thứ nhất phải bằng số hàng của ma trận thứ 
hai. Trong ví dụ trên, chúng đều bằng n. 


Một vài tính chất của phép nhân hai ma trận (giả sử kích thước các ma trận là phù hợp để 
các phép nhân ma trận tồn tại): 
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1. Phép nhân ma trận không có tính chất giao hoán. Thông thường (không phải luôn luôn), 
AB z BA. Thậm chí, trong nhiều trường hợp, các phép tính này không tồn tại vì kích 
thước các ma trận lệch nhau. 


2. Phép nhân ma trận có tính chất kết hợp: ABC = (AB)C = A(BC) 
3. Phép nhân ma trận có tính chất phân phối đối với phép cộng: A(B + C) = AB + AC. 


4. Chuyển vị của một tích bằng tích các chuyển vị theo thứ tự ngược lại. Điều tương tự xáy 
ra với Hermitian của một tích: 


(AB)“=B7A”, (AB)" = BP AP? (1.3) 


Theo dinh nghia trén, báng cách coi vector là mót truóng hop dác biét cúa ma tràn, tích vó 
huóng cúa hai vector (inner product) x, y € R” dugc dinh nghia là: 


xy=y x= 3 uw; (1.4) 
i=1 


Chú ý, xy = (y%x)% = yx. Chúng bang nhau khi va chỉ khi chúng là các số thực. Nếu 
tích vô hướng của hai vector khác không bằng không, hai vector đó vuông góc với nhau. 


x'x > 0, Vx € C" vì tích của một số phức với liên hiệp của nó luôn là một số không âm. 


pmxn 


Phép nhán cúa mót ma trán A € với môt vector x € R” lá một vector b € R”: 
Ax = b, với b; = A.¿x (1.5) 
với A.; là vector hàng thứ 2 của A. 


Ngoài ra, một phép nhân khác được gọi là Hadamard (hay element-wise) hay được sử dụng 
trong Machine Learning. Tích Hadamard của hai ma trận cùng kích thước A, B c R”*”, 
ký hiệu là C = AO B c R”*”, trong đó: 


C¿j — aijbij (1.6) 


1.4 Ma tràn don vi và ma tràn nghich dáo 
1.4.1 Ma tràn don vi 
Duóng chéo chính cúa mót ma trán là tàp hop các diém có chi só hàng và cót là nhu nhau. 


Cách dinh nghĩa này cũng có thé được dinh nghĩa cho một ma trận không vuông. Cu thể, nếu 
A €R”*” thì đường chéo chính của A bao gồm {a11, đsa,..., App), trong đó p = min{m, n]. 


Một ma trận đơn vị bậc n là một ma trận đặc biệt trong R”*” với các phần tử trên đường 


chéo chính bằng 1, các phần tử còn lại bằng 0. Ma trận đơn vị thường được ký hiệu là I 
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(identity matrix). Nếu làm việc với nhiều ma trận đơn vị với bậc khác nhau, ta thường ký 
kiệu L, cho ma trận đơn vi bậc n. Dưới đây là ma tràn đơn vị bậc 3 và bậc 4: 


roo] oroo 
ee 0001 


Ma trận đơn vị có tính chất đặc biệt trong phép nhân. Nếu A € R™",B c R”*™ và T là 
ma trận đơn vị bậc n, ta có: AI=A, IB=B. 


Với mọi vector x € R”, ta có I,x = x. 


1.4.2 Ma trận nghịch dao 


prxn 


Cho mót ma trán vuóng A € , nếu tồn tai ma trận vuông B € R"*" sao cho AB = L,, 
thì ta nói A là khá nghịch (invertible, nonsingular hoặc nondegenerate), và B được gọi là 
ma trận nghịch đảo (inverse matriz ) của A. Nêu không tồn tại ma tràn B thoả mãn điều 
kiện trên, ta nói rằng ma trận A là không khả nghịch (singular hoặc degenerate). 
Nếu A là khả nghịch, ma trận nghịch đảo của nó thường được ký hiệu là A^!. Ta cũng có: 
A!A=AA'=I (1.8) 
Ma trận nghịch đảo thường được sử dụng để giải hệ phương trình tuyến tính. Giả sử rằng 
A € R"*" là một ma trận khả nghịch và một vector bát ky b € R”. Khi đó, phương trinh: 


Ax=b (1.9) 


có nghiệm duy nhất là x = A~'b. Thật vậy, nhân bên trái cả hai về của phuong trình với 
A“? ta có Ax—-beAlAx—A"!bex-—A b. 


Nếu A không khả nghịch, thậm chí không vuông, phương trình tuyến tính (1.9) có thể không 
có nghiệm hoặc có vô số nghiệm. 


Giả sử các ma trận vuông A,B là khả nghịch, khi đó tích của chúng cũng khả nghịch, và 


(AB) !=B-1A-!. Quy tắc này cũng khá giống với cách tính ma trận chuyển vị của tích 
các ma trận. 


1.5 Một vài ma trận đặc biệt khác 
1.5.1 Ma trận đường chéo 
Ma trận đường chéo (diagonal matrix) là ma trận chỉ có các thành phần trên đường chéo 


chính là khác không. Định nghĩa này cũng có thể được áp dụng lên các ma trận không vuông. 
Ma trận không (tất cả các phần tử bằng 0) và đơn vị là các ma trận đường chéo. Một vài ví 


—10 
dụ vé các ma trận đường chéo [1], E D j l : j , | 0 2j. 


Machine Learning co bån https: // machinelearningcoban.com 


CHƯƠNG 1. ÓN TẬP DAISÓ TUYẾN TÍNH 16 


Với các ma trận đường chéo vuông, thay vì viết cả ma trận, ta có thể chỉ liệt kê các thành 
phần trên đường chéo. Ví dụ, một ma trận đường chéo vuông A € R™*™ có thé được ký 
hiệu là diag(a;,, a22, ..., Am) với aj; là phan tử hàng thứ i, cột thứ i của ma trận A. 


Tích, tổng của hai ma trận đường chéo vuông cùng bậc là một ma trận đường chéo. Một 
ma trận đường chéo vuông là khả nghịch nếu và chỉ nếu mọi phần tử trên đường chéo chính 
là khác không. Nghịch đảo của một ma trận đường chéo khả nghịch cũng là một ma trận 
đường chéo. Cu thé hơn, (diag(ø,ds,..., a„))~! =diag(a; *,a3*,..., az"). 


) 7m 


1.5.2 Ma tràn tam giác 


Một ma trận vuông được goi là ma trận tam giác trên (upper triangular matrix) nếu tất cà 
các thành phần nằm phía dưới đường chéo chính bằng 0. Tương tự, một ma trận vuông được 
gọi là ma trận tam giác dưới (lower triangular matrix) nêu tất cả các thành phần nằm phía 
trên đường chéo chính bằng 0. 


Các hệ phương trình tuyến tính mà ma trận hệ số có dạng tam giác thường được quan tâm 
vì chúng có thể được giải với chi phí tính toán thấp (low computational cost). Xét hệ: 


Q11X314- aito t ++: Gíin-dl#na-1fÐÐ.- Cink, = Dị 
22327r *** G2n—1⁄n—23 TT Ann = ba 


n " (1.10) 
Gn —1,n—1Xn 1+ An Lnatn = bi 
Annn = Da 


Hé này có thể được viết gon dưới dang Ax — b với A là một ma trận tam giác trên. Nhận 
thấy rằng phương trinh này có thể giải mà không cần tính ma trận nghịch đảo A^! (quá 
trình tính ma trận nghịch đảo thường tốn khá nhiều thời gian), thay vào đó, ta có thể giải 
£n dua vào phương trình cuối cùng. Sau khi có z,, ta có thể thay nó vào phương trình gần 
cuối dé suy ra z, 4. Tiếp tuc quá trinh này, ta sẽ có nghiệm cuối cùng x. Quá trình giải từ 
cuối lên đầu và thay toàn bộ các thành phần đã tìm được vào phương trình hiện tại được 
gọi là back substitution. Néu ma trận hệ só là một ma trận tam giác dưới, hé phuong trình 
có thể được giải bằng một quá trình ngược lai - lần lượt tinh zı rồi %>,...,t,, quá trình 
này được gọi là forward substitution. 


1.6 Định thức 

1.6.1 Định nghĩa 

Dinh thức của một ma trận vuông A được ký hiệu là det(A) hoặc det A. Có nhiều cách 
định nghĩa khác nhau của định thức (determinant). Chúng ta sẽ sử dụng cách định nghĩa 
dựa trên quy nạp theo bậc n của ma trận. 

Với n — 1, det(A) chính là phần tử duy nhất của ma trận đó. 


Với một ma trận vuông bậc n > 1: 
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011 Q12 ... Ain 
Q21 099 ... Aan 


A= > det(A) = Y (-1) Wa; det(A;;) (1.11) 
Am1 Am2 - - - Amn 

Trong đó 1 € i € n bát kỳ và A;; là phần bù đại số của A ứng vói phần tử ở hàng i, cột j. 

Phần bù dai số này là một ma trận con của A nhận được từ A bằng cách xoá hàng thứ i 

và cột thứ j của nó. Đây chính là cách tính định thức dựa trên cách khai triển hàng thứ 4 

của ma trận!. 


1.6.2 Tính chất 
1. det(A) = det(AT): Một ma trận bát ky và chuyển vi của nó có định thúc như nhau. 


2. Dinh thúc của một ma trận đường chéo (vá uuông) bằng tích các phần tử trên đường chéo 
chính. Nói cách khác, nếu A = diag(a;, a2,..., an), thì det(A) = ajay... dp. 


3. Dịnh thúc của một ma trận don vi bằng 1. 
4. Định thúc của một tích bằng tích các định thúc. 
det(AB) = det(A) det(B) (1.12) 
với A, B là hai ma trận vuông cùng chiều. 
5. Nếu một ma trận có môt hàng hoặc một cột là một vector 0, thà định thúc của nó bằng 0. 
6. Một ma trận là khá nghịch khi và chi khi dinh thúc của nó khác 0. 


7. Nếu một ma trận khả nghịch, định thúc của ma trận nghịch đảo của nó bằng nghịch đảo 
định thúc của nó. 


daia i= mm aj de(A)de(A7) = det(AA™) -de(D - 1. — (113) 


1.7 Tó hgp tuyén tính, khóng gian sinh 


1.7.1 Tổ hợp tuyến tính 


Cho các vector khác không a¡,..., an € R” và các số thực #,...,#„ € R, vector: 

b = 119; + 2989 + -- - + #„a„, (1.14) 
được gọi là một tó hợp tuyến tính (linear combination) của ai,...,a„. Xét ma trận A = 
[ai, aa,..., an] € RP” và x = [1, 22, ..., „|“, biểu thức (1.14) có thể được viết lại thành 


b= Ax. Ta có thể nói rằng b là một tổ hợp tuyến tính các cột của A. 


! Việc ghi nhớ định nghĩa này không thuc sự quan trọng bằng việc ta cần nhớ một vài tính chất của nó. 
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Tập hợp tất cả các vector có thể biểu diễn được dưới dạng một tổ hợp tuyến tính của các 
cột của một ma trận được gọi là không gian sinh (span space, hoặc gon là span) các cột của 
ma trận đó. Không gian sinh của một hệ các vector thường được ký hiệu là span(ai,..., an). 
Nếu phương trình: 

0= 2184 + 15835 + `+- + TnAn (1.15) 


có nghiệm duy nhất zı = 29 = --- = £n = 0, ta nói rằng hệ {a,aa,...,a„} là một hệ độc 
lập tuyến tinh (linear independence). Ngược lại, Nếu tồn tai z; # 0 sao cho phương trinh 
trên thoả mãn, ta nói rằng đó là một hệ phụ thuộc tuyến tính (linear dependence). 


1.7.2 Tính chất 


1. Một hệ là phụ thuộc tuyến tính nếu và chỉ nếu tồn tại một vector trong hệ đó là tổ hợp 
tuyến tính của các vector còn lại. Thát vậy, giả sử phương trình (1.15) có nghiệm khác 
không. Giả sử hệ số khác không là x;, ta sẽ có: 


—41 —#¡—1 —#¡+1 — Tn 
ai+d+---+ a;_¡ + aii +... 


ay = an (1.16) 


tức a; là một tó hợp tuyến tính của các vector còn lại. 
2. Tập con khác rỗng của một hệ độc lập tuyến tính là một hệ độc lập tuyến tính. 
3. Tập hợp các cột của một ma trận khả nghịch tạo thành một hệ độc lập tuyến tính. 


Giả sử ma trận A khả nghịch, phương trinh Ax = 0 có nghiệm duy nhát x = A~'0 = 0. 
Vì vậy, các cột của A tạo thành một hệ độc lập tuyến tính. 


4. Nếu A là một ma trận cao (tall matrix), túc số hàng lớn hon số cột, m > n, thi ton tại 
vector b sao cho Ax — b vó nghiệm. 


Viéc này có thé dé hinh dung trong khóng gian ba chiéu. Khóng gian sinh cüa mót vector 
là một đường thang, không gian sinh của hai vector độc lập tuyến tính là một mặt phẳng, 
tức chỉ biểu diễn được các vector nằm trong mặt phẳng đó. 


Ta cũng có thể chứng minh tính chất này bằng phản chứng. Giả sử mọi vector trong 
không gian m chiều đều nằm trong không gian sinh của một hệ n < rm vector là các cột 
của một ma trận A. Xét các cột của ma trận đơn vị bậc m. Vì mọi cột của ma trận này 
đều có thể biểu diễn dưới dạng một tó hợp tuyến tính của n vector đã cho nên phương 
trình AX =I có nghiệm. Nếu ta thêm các vào các cột bằng 0 và các hàng bằng 0 vào A 
X 
0 
một ma trận khả nghịch trong khi nó có các cột bằng 0. Đây là một điều vô lý vi theo 
tính chất của định thức, định thức của [A 0] báng 0. 


và X để được các ma trận vuông, ta sẽ có [A 0] | =I. Viéc nay chi ra rang [A 0] là 


5. Nếu n > m, thà n vector bát kỳ trong không gian m chiều tạo thành một hệ phụ thuộc 
tuyến tính. Xin được bỏ qua phần chứng minh. 
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1.7.3 Cơ sở của một không gian 


Một hệ các vector {a¡,..., an} trong không gian vector m chiều V = R™ được goi là một co 
sở (basic) nếu hai điều kiện sau được thoả mãn: 


1. V = span(aj,..., an) 


2. {a,,...,a,} là một hệ độc lập tuyến tính. 


Khi đó, moi vector b € V đều có thể biểu diễn duy nhát dưới dạng một tổ hợp tuyến tính 
của các a¿. 


Từ hai tính chất cuối ở mục trước, ta có thể suy ra rằng m — n. 


1.7.4 Range và Null space 


Với mỗi ma tran A € R”*”, có hai không gian con quan trong ứng với ma trận này. 


1. Range của A. Range của A, được định nghĩa là: 


R(A) = {y € R” : 3x cR", Ax =y} (1.17) 


Nói cách khác, R(A) là tập hợp các điểm là tổ hợp tuyến tính của các cột của A, hay 
chính là không gian sinh (span) của các cột của A. (A) là một không gian con của R™ 
với số chiều chính bằng sô lượng lớn nhất các cột của A độc lập tuyến tính. 


2. Null của A, ký hiệu là N(A), được định nghĩa là: 


N(A) = (x eR": Ax = 0} (1.18) 


Mỗi vector trong V(A) chính là một bộ các hệ só làm cho tó hợp tuyến tính các cột của 
A tạo thành một vector 0. (A) có thể được chứng minh là một không gian con trong 
R”. Khi các cột của A là độc lập tuyến tính, theo định nghĩa, M(A) = {0} (chỉ gồm 
vector 0). 


R(A) và N(A) là các không gian con vector với số chiều lần lượt là dim(R(A)) và 
dim(N(A)), ta có tính chất quan trọng sau đây: 


dim(R(A)) + dim(N(A)) =n (1.19) 


1.8 Hạng của ma trận 


Xét một ma trận A € R”*”. Hang (rank) của ma trận này, ký hiệu là rank(A), được định 
nghĩa là số lượng lớn nhất các cột của nó tạo thành một hệ độc lập tuyến tính. 
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Các tính chất quan trọng của hạng: 


1. Một ma trận có hạng bằng 0 khi và chỉ khi nó là ma trận 0. 


2. rank(A) = rank(A7). Hang của một ma trận bằng hạng của ma trận chuyển vị. Nói cách 
khác, số lượng lớn nhất các cột độc lập tuyến tính của một ma trận bằng với số lượng 
lớn nhất các hàng độc lập tuyến tính của ma trận đó. Từ đây ta suy ra: 


3. Nếu A € R”*”, thì rank(A) < min(m,n) vi theo định nghĩa, hạng của một ma trận 
không thể lớn hơn số hàng hoặc số cột của nó. 


4. rank(AB) € min(rank(A), rank(B)) 


5. rank(A + B) € rank(A) + rank(B). Điều này chi ra rằng một ma trận có hang bằng k 
khóng dugc biéu dién duói dang ít hon k ma trán có hang báng 1. Dén bài Singular Value 
Decomposition, chúng ta sé tháy ráng mót ma tràn có hang báng k có thé biéu dién dugc 
duói dang dáng k ma tràn có hang báng 1. 


6. Bát dàng thức Sylvester vé hang: Nếu A € R"*", B e R"**, thi 


rank(A) + rank(B) — n € rank(AB) 


Xét một ma trận vuông A € R”*, hai điều kiện bát kỳ dưới đây là tuong đương: 


1. A là một ma trận khả nghịch. 3. det(A) 40. 


2. Các cột của A tao thành một co só trong 4. rank(A) =n 
khóng gian n chiéu. 


1.9 Hé truc chuán, ma tràn truc giao 


1.9.1 Dinh nghia 


Một hệ cơ só (ui, us,...,u,, € R") được goi là truc giao (orthogonal) nếu mỗi vector là 
khác 0 và tích cüa hai vector khác nhau bát ky báng 0: 


uj 40; u;u;=0V1<¡#j<m (1.20) 
Một hệ cơ sở {u¡, uạ,..., Um E R™} được goi là truc chuẩn (orthonormal) nêu nó là một hệ 
trực giao va độ dài Euclidean (xem thêm phần £5 norm) của mỗi vector bằng 1: 
1 nbi 
Ta. — J 
u; Uj l do (1.21) 


(o.w. là cách viết ngắn gon của trong các trường hợp con lai (viết tắt của otherwise).) 
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Gọi U = [u¡,u;,..., Um] với {u¡,u¿,..., Un € R™} lá truc chuẩn, từ (1.21) có thể suy ra: 
UU’ = UTU =I (1.22) 

trong dó I lá ma tran don vi bac m. Néu mót ma tran thoa mán diéu kién 1.22, ta goi nó 

là ma trận truc giao (orthogonal matriz). Ma trận loại này không không được gọi là ma trận 


trực chuẩn, không có định nghĩa cho ma trận trực chuẩn. 


Nếu một ma trận vuông phức thoả mãn UU" = UU =I, ta nói rằng U là một ma 
trận unitary (unitary matriz). 


1.9.2 Tính chát cúa ma trán truc giao 
1. U-! = UT: nghịch đảo của một ma trận trực giao chính là chuyển vị của nó. 
2. Nếu U là ma trận trực giao thì chuyển vị của nó U” cũng là một ma trận trực giao. 


3. Dịnh thức của ma trận trực giao bằng 1 hoặc —1. Diều này có thể suy ra từ việc det(U) = 
det(U7) và det(U) det(U7) = det (TI) = 1. 


4. Ma trận trực giao thể hiện cho phép xoay một vector (xem thêm mục 1.10). Giả sử có 
hai vector x, y € R” và một ma trận trực giao U € R”*”. Dùng ma trận này để xoay 
hai vector trên ta được Ux, Ủy. Tích vô hướng của hai vector mới là: 


(Ux)7(Uy) = x U*Uy = x^y (1.23) 


như vậy phép xoay không làm thay đổi tích vô hướng giữa hai vector. 


5. Giả sử U € R™*" r — m là mót ma trận con của ma trận trực giao được tạo bởi r cột 
của U, ta sẽ có UTU = I,. Việc này có thể được suy ra từ (1.21). 


1.10 Biễu diễn vector trong các hệ cơ sở khác nhau 


Trong không gian m chiều, toa độ của mỗi điểm được xác định dựa trên một hệ toa độ nào 
đó. Ó các hệ toạ độ khác nhau, hiển nhiên là toạ độ của mỗi điểm cũng khác nhau. 


Tập hợp các vector e¡,..., €m mà mỗi vector e; có đúng 1 phan tử khác 0 ở thành phần thứ 
¡ và phần tử đó bằng 1, được gọi là hệ cơ sở đơn vị (hoặc hệ đơn vị, hoặc hệ chính tắc) trong 
không gian m chiều. Nếu xếp các vector e;,i = 1,2,...,m theo đúng thứ tự đó, ta sẽ được 
ma trận đơn vị m chiều. 


Mỗi vector cột x = [2,,12,..., Um] € R” có thé coi là một tổ hợp tuyến tính của các vector 
trong hệ cơ sở chính tắc: 


X = 11€ + 25065 + +++ + Lmlm (1.24) 
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Hình 1.1: Chuyển đổi toạ độ trong 
các hệ cơ sở khác nhau. Trong 
hệ toa độ Oejez, x có toa độ là 
(x1, £2). Trong hé toa độ Ouju», 
x có toa độ la (ya, ya). 


©2 


+2 


€1 


O Tı 


Giả sử có một hệ cơ sở khác uy, u2, ..., Um (các vector này độc lập tuyến tính), biểu diễn 
của vector x trong hệ cơ sở mới này có dạng: 


x= Yu, Y2U2 pars UmUm = Uy (1.25) 


với U = [ui T us]. Lúc này, vector y = [yi Y2,- --, Ym]? chính là biểu diễn của x trong hệ 
cơ sở mới. Biểu diễn này là duy nhất vi y = U-'!x. 


Trong các ma trận đóng vai trò nhu hệ cơ só, các ma trận trực giao, tức UTU = I, được quan 
tâm nhiều hơn vì nghịch đảo của chúng chính là chuyển vị của chúng: UT! = UT. Khi đó, y có 
thể được tính một cách nhanh chóng y = U7x. Từ đó suy ra: y; = xfu; = ul x, i = 1,...,m. 
Dưới góc nhìn hình học, hệ trực giao tạo thành một hệ trục toa độ Descartes vuông góc mà 


chúng ta đã quen thuộc trong không gian hai chiều hoặc ba chiều. 


Có thể nhận thấy rằng vector 0 được biểu diễn như nhau trong mọi hệ cơ sở. Hình 1.1 là 
một ví dụ về việc chuyển hệ cơ sở trong không gian hai chiều. 


Việc chuyển đổi hệ cơ sở sử dụng ma trận trực giao có thể được coi như một phép xoay 
trục toa độ. Nhìn theo một cách khác, đây cũng chính là một phép xoay vector dí liệu theo 
chiều ngược lại, nếu ta coi các trục toa độ là cố định. Trong chương Principle Component 
Analysis, chúng ta sẽ thấy được một ứng dụng quan trọng của việc đổi hệ cơ sở. 


1.11 Trị riêng và vector riêng 


1.11.1 Định nghĩa 


prxn 


Cho một ma trận vuông A € , một vector x € R"(x Æ 0) và một só vô hướng (có 
thể thực hoặc phức) A. Nếu Ax = Ax, thi ta nói A và x là một cặp tri riêng, vector riêng 
(eigenvalue, eigenvector) của ma trận A. 


Từ dinh nghĩa ta cũng có (A — ÀT)x = 0, tức x nằm trong null space của A — AI. Vi x Z 0, 
A — AI là một ma trận không khả nghịch. Nói cách khác det(A — AI) = 0, tức A là nghiệm 
của phuong trình det(A — tI) = 0. Dinh thức này là một đa thức bậc n của t, được gọi la 
da thúc đặc trưng (characteristic polynomial) của A, được ký hiệu là pa(t). Tập hợp tất cả 
các trị riêng của một ma trận vuông còn được gọi là phd (spectrum) của ma trận đó. 
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1.11.2 Tính chát 


1. Néu x là mót vector riéng cüa A úng vói A thi kx, Vk 4 0 cüng là vector riéng úng vói 
trị riêng đó. Nếu xj, x; là hai vector riêng ứng với cùng trị riêng A, thi tong của chúng 
cũng là một vector ứng với tri riêng đó. Từ đó suy ra tập hợp các vector riêng ứng với 
một tri riêng của một ma trận vuông tạo thành một không gian vector con, thường được 
gọi là không gian riêng (eigenspace) ứng với trị riêng đó. 


2. Mọi ma trận vuông bậc n đều có n trị riêng (kể cả lặp) và có thể là các số phúc. 


3. Tích của tất cả các trị riêng của một ma trận bằng định thức của ma trận đó. Tổng tất 
cả các trị riêng của một ma trận bằng tổng các phần tử trên đường chéo của ma trận đó. 


4. Phổ của một ma trận bằng phổ của ma trận chuyển vị của nó. 


5. Nếu A, B là các ma trận vuông cùng bac thì pAB(#) = ppa(t). Điều này nghĩa là, mặc 
dù tích của hai ma trận không có tính chất giao hoán, đa thức đặc trưng của AB và BA 
là như nhau. Tức phổ của hai tích này là trùng nhau. 


6. Với ma trận đối xứng (hoặc tổng quát, Hermitian), tất cả các trị riêng của nó đều là các 
số thực. Thật vậy, giả sử A là một trị riêng của một ma trận Hermitian A và x là một 
vector riêng ứng với trị riêng đó. T định nghĩa ta suy ra: 


Ax = Ax > (Ax)? = àx” > Ax" =x”A (1.26) 
vói A là lién hiép phúc cúa só vó huóng A. Nhàn cá hai vé vào bén phái vói x ta có: 

Ax"x =x" Ax = Ax"x-(A—A)Xx"x-0 (1.27) 
vi x # 0 nén xx 4 0. Từ đó suy ra À = A, túc A phải là một só thực. 


7. Nếu (A, x) là một cặp trị riêng, vector riêng của một ma trận khả nghịch A, thì (1, x) là 
một cặp trị riêng, vector riêng của A !, i Ax = Ax > x= A^ !x. 


1.12 Chéo hoá ma trận 


Việc phân tích một đại lượng toán học ra thành các đại lượng nhỏ hơn mang lại nhiều hiệu 
quả. Phân tích một số thành tích các thừa số nguyên tố giúp kiểm tra một số có bao nhiêu 
ước số. Phân tích đa thức thành nhân tử giúp tìm nghiệm của đa thức. Việc phân tích một 
ma trận thành tích của các ma trận có dạng đặc biệt khác (quá trình này được gọi là matriz 
decomposition) cũng mang lại nhiều lợi ích trong việc giải hệ phương trình một cách hiệu 
quả, tính luỹ thừa của ma trận, xáp xỉ ma trận, nén dữ liệu, phân cụm dí liệu, v.v. Trong 
mục này, chúng ta sẽ ôn lại một phương pháp matrix decomposition quen thuộc-phương 
pháp chéo hoá ma trận (diagonalization hoặc eigendecomposition). 


Giả sử xị,...,X„ # 0 là các vector riêng của một ma trận vuông A ứng với các tri riêng 
Ài,..., An (có thể lặp hoặc là các số phức) của nó. Tức là Ax; = A;xi, Vi = 1,...,n. 
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Đặt A = diag(A1,A2,..., An), và X = [X1, Xa, `. iL ta sé có AX — XA. Hon núa, néu 
các trị riêng xị,..., x„ là độc lập tuyến tính, ma trận X là một ma trận khả nghịch. Khi đó 
ta có thể viêt A dưới dạng tích của ba ma trận: 


A-—XAX ! (1.28) 


Các vector riêng x; thường được chon sao cho xx — ]. Cách biéu dión mót ma tràn 
như (1.28) được goi là eigendecomposition vì nó tách ra thành tích của các ma trận đặc biệt 
dựa trên vector riêng (eigenvectors) và trị riêng (eigenvalues). Ma trận các trị riêng A là 
một ma trận đường chéo. Vì vậy, cách khai triển này cũng có tên gọi là chéo hoá ma trận. 


Tính chất: 


1. Khái niệm chéo hoá ma trận chỉ áp dụng với ma trận vuông. Vì không có định nghĩa 
vector riêng hay trị riêng cho ma trận không vuông. 


2. Không phải ma trận vuông nào cũng có thể chéo hoá được (diagonalizable). Một ma trận 
vuông bậc n là chéo hoá được nếu và chỉ nếu nó có đủ n trị riêng độc lập tuyến tính. 


3. Nếu một ma trận là chéo hoá được, có nhiều hơn một cách chéo hoá ma trận đó. Chỉ cần 
đối vi trí của các A; và vi trí tương ứng các cột của X, ta sẽ có một cách chéo hoá mới. 


4. Nếu A có thể viết được dưới dạng (1.28), khi đó các luỹ thừa có nó cũng chéo hoá được. 
Cụ thể: 


A?=(XAX D)(XAX !) = X?X 5. A*=XA4*X !, VEEN (1.29) 


Xin chú ý rằng nếu A và x là một cặp (trị riêng, vector riêng) của A, thì \* và x là một 
cặp (trị riêng, vector riêng) của A^. Thật vậy, A*x = A*-!(Ax) = AAF 1x — ... = Ax, 


5. Nếu A khả nghịch, thi A! = (XAX !) ! = XA^!X !. Vậy chéo hoá ma trận cũng có 
ích trong viéc tính ma tràn nghich dáo. 


1.13 Ma tràn xác dinh duong 


1.13.1 Dinh nghia 


Một ma trận đối xứng? A € R"*" được goi là rác định duong (positive definite) néu: 


x’ Ax >0,Vx € R",x £0. (1.30) 


Một ma trận đối xứng A € R”*” được gọi là nửa xác định dương (positive semidefinite) néu: 


xl Ax > 0, Vx € R",x £0. (1.31) 


Trên thực tế, ma trận nửa xác định duong, dược viết tắt là PSD, được sử dung nhiều hon. 


? Chú ý, tồn tại những ma trận không đối xứng thoả mãn điều kiện (1.30). Ta sẽ không xét những ma trận này. 
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Ma tràn rác định âm (negative definite) và nýa xác định âm (negative semi-definite) cũng 
được định nghĩa tương tự. 


Ký hiệu A > 0,> 0,< 0,< 0 được dùng dé chỉ một ma trận là xác định dương, nửa xác 
định dương, xác định âm, nửa xác định âm, theo thứ tự đó. Ký hiệu A > B cũng được dùng 
dé chỉ ra rằng A — B > 0. 


Mở rộng, một ma trận phức, Hermitian A € C"*" được goi là xác dinh dương nếu: 


x" Ax > 0, Vx €C",x £0. (1.32) 
Vídu, A — le 1 là núa xác dinh duong vi vói moi vector x — H , ta có: 
T 1 —1| ju 2 2 2 
x“ Ax = [uv] 4 ly A — 2w = (u—v)' > 0,Yu,v E R (1.33) 


1.13.2 Tính chát 
1. Moi trị riêng của một ma trận xác định dương đều là một só thực dương. 


Trước hết, các trị riêng của các ma trận dạng này là số thực vì các ma trận đều là đối 
xứng. Để chứng minh chúng là các số thực dương, ta giả sử A là một trị riêng của một 
ma trận xác định dương A và x 4 0 là một vector riêng ứng với trị riêng đó. Nhân vào 
bên trái cả hai về của Ax = Ax với x” ta có: 


Ax"x = x" Ax > 0 (1.34) 


(6 day Hermitian được dùng để xét tổng quát cho cả trường hợp ma trận phức). Vi xx 
luôn dương với moi x nên ta phải có A > 0. Tương tu, ta có thể chứng minh được rằng 
moi tri riêng của một ma trận nửa xác dinh dương là không âm. 


2. Mọi ma trận xác định dương là khả nghịch. Hơn nữa, định thúc của nó là một số dương. 


Điều này được trực tiếp suy ra từ tính chất 1. Nhắc lại rằng định thức của một ma trận 
bằng tích tất cả các trị riêng của nó. 


3. Tiêu chuẩn Sylvester: Một ma trận Hermitian là xác định dương nếu và chỉ nếu moi 
leading principal minors cua nó là dương. Một ma trận Hermitian là nửa xác định duong 
nếu moi principal minors của nó là không âm. Day là một tiêu chuẩn để kiểm tra một ma 


trận Hermitian A € R” có là (nửa) xác định dương hay không. Ó đây, leading principal 
minors và principal minors được định nghĩa như sau: 


Gọi Z là một tập con bát kỳ của (1,2,..., n}, Az là ma trận con của A nhận được bằng 
cách trích ra các hàng và cột có chỉ số nằm trong Z của A. Khi đó, Az và det(Az) làn 
lượt được gọi là một ma trận con chính (principal submatrix) và principal minor của A. 
Nếu 7 chỉ bao gồm các số tự nhiên liên tiếp từ 1 đến k < n, ta nói Az và det(Az) lần 
lượt là một leading principal submatrix và leading principal minor bậc k của A. 
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4. A = BPB là nửa xác định dương vói mọi ma trận B (B không nhất thiết vuông). 
Thật vậy, với moi vector x Æ 0 với chiều phù hợp, x" Ax = x” B" Bx = (Bx)” (Bx) > 0. 
5. Khai triển Cholesky (Cholesky decomposition): Moi ma trận Hermitian, nửa xác định 
dương A đều biểu diễn được duy nhất dưới dang A = LL", trong đó L là một ma trận 
tam giác dưới vói các thành phán trên đường chéo là thực duong. 
6. Nếu A là một ma trận nửa xác dinh dương, thi x* Ax = 0 & Ax =0. 
Nếu Ax = 0 > xTAx = 0 một cách hiển nhiên. 
Nếu x? Ax =0. Với vector y Æ 0 bát ky có cùng kích thước với x, xét hàm số sau day: 


f(A) = (x + Ay) A(x + Ay) (1.35) 


Hàm số nay không âm với moi A vi A là một ma trận nửa xác định dương. Day là một 
tam thức bậc hai của À: 


FA) =yTAyA?+ 2y 1 Ax + x! Ax = y! Ay) + 2y7 AxA (1.36) 
Xét hai truóng hgp: 
e yl! Ay =0. Khi đó, f(A) = 2yTAxA > 0, VÀ nếu và chỉ nếu y? Ax = 0. 
e y "Ay >0. Khi đó tam thức bậc hai f(A) > 0, VÀ nếu và chỉ nếu A’ = (yPAx)? < 0 


vi hệ só ứng với thành phần bậc hai bằng y” Ay > 0. Điều này cũng đồng nghĩa với 
việc y Ax = 0 


Tom lại, yT Ax = 0, Vy #0. Điều này chỉ xảy ra nếu Ax = 0. 


1.14 Chuan cúa vector va ma tran 


Trong không gian một chiều, khoảng cách giữa hai điểm là trị tuyệt đối của hiệu giữa hai giá 
trị đó. Trong không gian hai chiều, tức mặt phẳng, chúng ta thường dùng khoảng cách Euclid 
để đo khoảng cách giữa hai điểm. Khoảng cách này chính là đại lượng chúng ta thường nói 
bằng ngôn ngữ thông thường là đường chim bay. Đôi khi, để đi từ một điểm này tới một 
điểm kia, con người chúng ta không thể đi bằng đường chim bay được mà còn phụ thuộc 
vào việc đường đi nối giữa hai điểm có dạng như thế nào. 


Việc đo khoảng cách giữa hai điểm dữ liệu nhiều chiều, tức hai vector, là rất cần thiết trong 
Machine Learning. Và đó chính là lý do mà khái niệm chuẩn (norm) ra đời. Để xác định 
khoảng cách giữa hai vector y và z, người ta thường áp dụng một hàm số lên vector hiệu 
X — y — z. Hàm số này cần có một vài tính chất đặc biệt. 
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Hình 1.2: Minh họa /¡ norm và £5 
norm trong không gian hai chiều. lo 
norm chính là khoảng cách giữa hai 
điểm trong mặt phẳng. Trong khi 
đó /¡ norm là quãng đường ngắn 
nhất giữa hai điểm nêu chỉ được đi 
theo các đường song song với các 
trục toạ độ. 


[x — y ll1 = [za — yal + [xa — yo] 


Định nghĩa 1.1: Norm 


Một hàm số f : R* — R được gọi là một norm nếu nó thỏa mãn ba điều kiện sau đây: 


1. f(x) >0. Dau bằng xảy ra & x = 0. 
2. flax) =lalf(x), Va ER 
3. f(x1) + f(x3) > f(x1- x3), VX1, X2 €] 


Điều kiện thứ nhất là dé hiểu vì khoảng cách không thể là một số âm. Hon nữa, khoảng 
cách giữa hai điểm y và z bằng 0 nếu và chỉ nếu hai điểm nó trùng nhau, tức x = y —z = 0. 


Điều kiện thứ hai cũng có thể được lý giải như sau. Nếu ba điểm y, v và z thắng hàng, 
hơn nữa v — y = a(v — z) thì khoảng cách giữa v và y gấp |œ| lần khoảng cách giữa v và z. 


Điều kiện thứ ba chính là bát đẳng thức tam giác nếu ta coi x; = y — W, xo = W — Z với 
w là một điểm bất kỳ trong cùng không gian. 


1.14.1 Một số chuẩn vector thường dùng 


Độ dài Euclid của một vector x € IR" chính là một norm, norm này được goi là £9 norm hoặc 
Euclidean norm: 


llo = y2? + z$ + --- +22 (1.37) 


Bình phương của £? norm chính là tích vô hướng của một vector với chính nó, ||x||$ = x7x. 


Với p là một số không nhỏ hơn 1 bất kỳ, hàm số: 
1 
xl], = (laa? la? +... ||")? (1.38) 
được chứng minh thỏa mãn ba điều kiện của norm, và được gọi là 4, norm. 


Có một vài giá trị của p thường được dùng: 


1. Khi p = 2 chúng ta có £9 norm như ở trên. 
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2. Khi p = 1 chúng ta có £, norm: ||x||i = [zi] + |za| + --- + |z„| là tong các trị tuyệt đối 
của từng phần tử của x. Hinh 1.2 là một ví dụ sánh /, norm và l, norm trong không 
gian hai chiều. Norm 2 (màu xanh) chính là đường thằng chim bay nối giữa hai vector x 
và y. Khoảng cách /, norm giữa hai điểm này (màu đỏ) có thể diễn giải như là đường đi 
từ x tới y trong một thành phố mà đường phố tạo thành hình bàn cờ. Chúng ta chỉ có 
cách đi dọc theo cạnh của bàn cờ mà không được đi thắng như đường chim bay. 


3. Khi p > oo, giả sử i = arg max;=la....„ |v;|. Khi đó: 


1 
x|” tial? Jel” du s 
= id (1 2 pesg- = A tee ti ) (1.39) 
Ti Ti Ti Ti 
Ta tháy ráng: 
p pp mM Pia 
lim (1+ 2 deL |Z Tiri pp pt ) =1 (1.40) 
poo m X Ti Ti 


vì đại lượng trong dấu ngoặc đơn không vượt quá n, ta sé có: 


A fi —|r.| = : 
[xls = Him [x] = [are] = max [75] (1.41) 


1.14.2 Chuán Frobenius cúa ma trán 


Với một ma trận A € R”*”, chuẩn thường được dùng nhất là chuẩn Frobenius, ký hiệu là 
A || là căn bậc hai của tổng binh phương tất cả các phan tử của ma trận đó. 


Chú ý rằng /¿ norm ||A||s là một norm khác của ma trận, không phổ biến bang Frobenius 
norm. Ban đọc có thể xem l, norm của ma trận trong Phụ lục A. 


1.14.3 Vết của ma trận 
Vét (trace) của một ma trận vuông là tổng tất cả cả phần tử trên đường chéo chính của nó. 


Vết của một ma trận được A được ký hiệu là trace( A). Hàm só trace xác định trên tập các 
ma trận vuông được sử dụng rất nhiều trong tối ưu vì những tính chất đẹp của nó. 


Các tính chất quan trọng của hàm trace, với giả sử rằng các ma trận trong hàm trace là 
vuông và các phép nhân ma trận thực hiện được: 


e Một ma trận vuông bat kỳ và chuyến vi của nó có trace bằng nhau trace(A) = trace(AT). 
Việc này khá hiển nhiên vì phép chuyển vị không làm thay đổi các phần tử trên đường 
chéo chính của một ma trận. 
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e trace của một tổng bằng tong các trace: trace( , As = os trace(A;). 

e trace(kA) = ktrace(A) với k là một số vô hướng bất kỳ. 

e trace(A) = óc A, với A là một ma trận vuông và À;,¿ = 1,2,..., N là toàn bộ các tri 
riêng của nó, có thể phức hoặc lặp. Việc chứng minh tính chất này có thể được dựa trên 


ma trận đặc trưng của A và định lý Viète. 

e trace(AB) = trace(BA). Dang thức này được suy ra từ việc đa thức đặc trưng của AB 
và BA là như nhau. Bạn đọc cũng có thể chứng minh bằng cách tính trực tiếp các phần 
tử trên đường chéo chính của AB và BA. 

e trace(ABC) = trace(BCA) nhưng trace(ABC) không đồng nhất với trace(ACB). 

e Nếu X là một ma trận khả nghịch cùng chiều với A: 

trace(XAX !) = trace(X ! XA) = trace(A) (1.42) 


e ||A ||; = trace(AT A) = trace(AAT) với A là một ma trận bát kỳ. Từ dày ta cũng suy ra 
trace(A AT) > 0 với mọi ma tran A. 
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Giải tích ma trận 


Trong chương này, nếu không nói gì thêm, chúng ta giả sử rằng các đạo hàm tòn tại. Tài 
liệu tham khảo chính của chương là Matrix calculus-Stanford (https: // goo.gl/ BjTPLr). 


2.1 Đạo hàm của hàm trả về một số vô hướng 


Đạo hàm bậc nhất (first-order gradient) hay viết gọn là đạo hàm (gradient) của một hàm 
số f(x) : R” > R theo x được định nghĩa là 


V.f(x)à| 2 | er” (2.1) 


OL», 


Øƒ() 
Ox; 
vector x. Dao hàm này được lấy khi tat cả các bién, ngoài z;, được giả sử là hang số. Nếu 
không có thêm biến nào khác, V, f(x) thường được viết gon là V f(x). Đạo hàm của hàm 
số này là một vector có cùng chiều với vector đang được lấy đạo hàm. Tức nếu 

vector được viết ở dạng cột thì đạo hàm cũng phải được viết ở dạng cột. 


trong đó là dao hàm riêng (partial derivative) của hàm số theo thành phần thứ i của 


Dao hàm bậc hai (second-order gradient) của hàm số trên còn được gọi là Hessian và được 
định nghĩa nhu sau, với S" € R?*" là tập các ma trận vuông đối xứng bậc n. 


OP f(x) fx) | O"f(x) 
On 0x101) n 01,0%, 
O^f(x) O?f(x) f(x) 
Vif(x)5 | 9:0m 0x3 ^ ØzzÐz„| ¿gr (2.2) 


O f(x) OP f(x) PF) 
Or,0z; Lnr On? 
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Dao hàm của một ham số f(X): R"*" > R theo ma tràn X được định nghĩa là 


Of(X) Of(X) | Of(X) 


OLARI 0x12 pl OR in, 
IX) ðƒ(X) AFX) 
Vf(X) — Ox Or) O finn, € prxm (2.3) 


Of(X) 9/(X) | Of(X) 


On, Ora  OLnm 


Chiéu cúa dao ham 


Dao hàm của hàm số f :] R là một ma trận trong R"*", Vm,n € N*. 


Cu thé, để tinh đạo hàm của một hàm f : R"*" > R, ta tính dao hàm riêng của hàm số đó 
theo từng thành phần của ma trận kh¿ toàn bộ các thành phần khác được giả sử là hằng số. 
Tiếp theo, ta sắp xếp các đạo hàm riêng tính được theo đúng thứ tự trong ma trận. 


Ví dụ: Xét hàm số f : R? > R, f(x) = x? + 22,22 + sin(21) + 2. 


Đạo hàm bậc nhất theo x của hàm số đó là 


GIÁ 271 + 215 + cos(z1) 
Vi) = | Om |= 
afc) A 
Ox, : 


f(x) 00) 
mi 2nôn, Pa 
f(x) Of*(x) 


Ox20x, Ox 


Dao hàm bác hai theo x, hay Hessian là V?f(x) = 
2 0 


Chú y ráng Hessian luón là mót ma trán dói xúng. 
2.2 Dao hàm cüa hàm trà vé mót vector 


Nhüng hàm só trá vé mót vector, hoác gon hon hàm trá vé vector dugc goi là vector-valued 
function trong tiéng Anh. 


Xét một hàm trả về vector với đầu vào là một số thực v(x) : R — R”: 
v1(2) 
valz 
v(x) = al ) (2.4) 


Un (x) 
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Dao hàm của hàm số này theo x là một vector hàng nhu sau: 


Vo(z) 2 [25e Ov2(x) Orla) (2.5) 
Ox ðr Ox 
Dao hám bác hai cúa hám só nay có dang 
Vu(a) ê vu (1) va)  0%v,(x) (2.6) 
Ox? Or? "a? 


Ví du: Cho một vector a € R” và một hàm só vector-valued v(x) = xa, dao hàm bậc nhất 
và Hession cüa nó làn luot là 


Vvo(r)— aT, V?^wxz)-0€R*" (2.7) 


Xét mót hàm trá vé vector vói dàu vào là mót vector h(x) : R* — R", dao hàm bác nhát 
cúa nó là 


Ohi(x) Oh2(x) | Oh4(x) 


0x1 0x1 = 0x1 
Ohi(x) Oh2(x) Oh, (x) 
Vx) =|, 0% on Oe. | [vm Vhj(x) ... Vh,(x)| ERP" (2.8) 


Ohi(x) Oh»(x) Oh, (x) 


Dao hàm bác hai cüa hàm só trén là mót máng ba chiéu, cháng ta sé khóng nhác dén ó day. 


Trước khi đến phần tính dao hàm của các hàm só thường gặp, chúng ta cần biết hai tính 
chất quan trọng khá giống với đạo hàm của hàm một biến. 


2.3 Tính chất quan trọng của đạo hàm 
2.3.1 Quy tắc tích (Product rule) 


Để cho tổng quát, ta giả sử biến đầu vào là một ma trận. Giả sử rằng các hàm số có chiều 
phù hợp để các phép nhân thực hiện được. Ta có: 


V (F(X)"9(X)) = (VEX) X) + (Vø(X)) F(X) (2.9) 
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Biểu thức này giống như biểu thức chúng ta đã quen thuộc: 

(f(z)9(x)) = f'(x)s(x) + 9' (x)/ (x) 
Chú ý rằng với tích của vector và ma trận, ta không được sử dung tính chất giao hoán. 
2.3.2 Quy tắc chuỗi (Chain rule) 


Khi có các hàm hợp thì 
Vx9(f(X)) = (Vx f)” (V 19) (2.10) 


Quy tắc này cũng giống với quy tắc trong hàm một bién: 


(EY =P 


Một lưu ý nhỏ nhưng quan trọng khi làm việc với tích các ma trận là sự phù hop vé kích 
thước của các ma trận trong tích. 


2.4 Đạo hàm của các hàm số thường gặp 


2.4.1 f (x) = aTx 


Giả st a,x € R”, ta viết lai f(x) = aTx = a4z, + 0922 + - - - + as 


2 P4 ` ð 
Có thé nhân tháy ráng E = ai, Vi = 1,2... n. 
T T 


Vậy, V(aTx) = [a a2... A = a. Ngoài ra, vì ax = x?a nén V(x?a) = a. 


2.4.2 f(x) = Ax 


Day là một hàm trå vé vector f : R” > R™ với x € R”, A c R™*”. Giả sử ràng a; là hàng 
thứ 2 của ma trân A. Ta có 


amX 
Theo định nghĩa (2.8), và công thức đạo hàm của a;x, ta có thể suy ra 

Vx(Ax) = [af aj ... a7] = A" (2.11) 
Từ đây ta có thể suy ra đạo hàm của hàm số f(x) = x = Ix, với I là ma trận đơn vi, là 


Vx =I 
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24.8 f(x) = xTAx 


với x € R^, A € R?*", Áp dung quy tắc tích (2.9) ta có 
V f (x) = V ((x%) (Ax)) 
= (V(x)) Ax + (V(Ax)) x 
=IAx+ A’x 
— (A + ADx (2.12) 


Tù (2.12) và (2.11), ta có thé suy ra V?xTAx = AT + A 
Nếu A là một ma trận đối xứng, ta sẽ có VxTAx = 2Ax, V?x"Ax=2A 


T 


Nếu A là ma trận đơn vi, tức f(x) = xfTx = x?x = ||x||Š, ta có 


Vllxll2=2x, V”lxll3 = 21 (2.13) 
2.4.4 f(x) = [Ax — bl]? 


Có hai cách tính dao hàm của hàm só này: 


Cách 1: Trước hết, biến đổi 
f(x) = ||Ax — b||? = (Ax — b)' (Ax — b) = (x? A7 — b')(Ax — b) 
=x? AT Ax — 2bfAx + bfb 
Láy dao hàm cho titng só hang rói cóng lai ta có 
V|Ax — b||} =2A7 Ax — 2ATb = 2AT(Ax — b) 


Cách 2: Sử dung V(Ax — b) = AT và V||x||2 = 2x và quy tắc chuỗi (2.10), ta cũng sẽ thu 
dugc két quà tuong tu. 


2.4.5 f(x) = aTxxTb 

Bằng cách viết lai f(x) = (a7x)(x7b), ta có thể dùng Quy tác tích (2.9) và có kết quả 
V (aT xx’ b) = axTb + ba’ x = ab’x + ba?x = (ab? + ba’ )x, 

ở day ta đã sử dụng tính chat yz = zTy. 


2.4.6 ƒ(X) = trace(AX) 


Giả sử A c R”*M X = R"*" va B= AX c R”™"”. Theo định nghĩa của trace, 


n n n 


f(X) = trace(AX) = trace(B) = y» = >; À asta (2.14) 


j=1 j=l #=1 


Of (X) 
Om. 


Tit dày ta tháy ráng = aji: Sử dung định nghĩa (2.3) ta dat được Vxtrace(AX) = AT. 
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Báng 2.1: Báng các dao hàm co bán. 


f(x) V f(x) F(X) Vx/f(X) 

x trace(X) I 

alx a trace(A7X) A 

x^ Ax (A + ADx trace(X7 AX) (A+ ADX 
x^ xe ||x||2 | 2x trace(X7 X) = |X|. | 2X 

| Ax — b||} | 2A7(Ax — b) | | AX — BỊ|l‡ 2AT(AX — B) 
afx?xb 2aTbx a’ Xb ab? 

alxx"b (ab? + ba™)x | trace(ATXB) ABT 


2.4.7 f(X) = aTXb 


Giá sử rằng a € R”, X € R?*". b € R”. Ban doc có thể chứng minh được 


i=1 j=l 


F(X) = SOS zaib; 


Từ đó, sử dung định nghĩa (2.3) ta sẽ có Vx(a T Xb?) = 


2.4.8 f(X) = IIX} 


Giả sử X € 
Và vì vậy, V 


2.4.9 f(X) = trace(XT AX) 


Già sit ráng X — [x1 Xứ với Xm] € 


XTAX = 


ta tinh được trace(XT AX) = Sar x? Ax;. Nhắc lai rang V„,xƒ Ax; = 


ab, Q4 05 sa ab, 
à3b4 daba ied à3b,, 
đ„Ð Um Da ids Ambn 


R^*^, bằng cách viết lai |X|} = 3774 91 2? 
XI) = 2X. 


j=l “ij? 


ta có thê suy ra 


R"*". Bằng cách khai triển 


x Ad NE AX). G3 AS, 
xT AX XT A AA 


mxn 
R"*" AC 
T 
Xj 
x 
i A [x1 X2... , Xn] = 
T 
X, 


T và T 
X, Ax; X; Áx> ... X, AX, 


Vxtrace(X" AX) = (A + AT) [xi x2... x4] = (A + A'X 


Bằng cách thay A = I, ta cũng thu được Vxtrace(X7X) = Vx|[X|[7. = 2X. 


= ab? 
Of — 
(2.15) 


(A + AD)x;, ta có 


(2.16) 
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2.4.10 f(X) = ¡AX — B||} 
Bằng kỹ thuật hoàn toàn tương tự như đã làm trong mục 2.4.4, ta thu được 


Vx||AX - B|2. = 2AT(AX — B) 


2.5 Bảng các dao hàm thường gặp 
Bảng 2.1 bao gồm đạo hàm của các hàm số thường gặp với biến là vector hoặc đạo hàm. 
2.6 Kiểm tra đạo hàm 


Việc tính đạo hàm của hàm nhiều biến thông thường khá phức tạp và rất dễ mắc lỗi. Trong 
thực nghiệm, có một cách để kiểm tra liệu đạo hàm tính được có chính xác không. Cách này 
dựa trên định nghĩa của đạo hàm cho hàm một biến. 


2.6.1 Xấp xỉ đạo hàm của hàm một biến 


Theo định nghĩa, 
ME 


e>0 E 


(2.17) 


Một cách thường được sử dụng là lấy một giá tri e rất nhỏ, ví dụ 109, và sử dụng công thức 


f(z +£)— jm—#) 
2£ 


Fa) e (2.18) 


Cách tính này được goi là numerical gradient. Biểu thức (2.18) được sử dụng rộng rãi hơn 
để tính numerical gradient. Có hai cách giải thích cho van đề này. 


Bằng giải tích 


Chúng ta cùng quay lại một chút với khai triển Taylor. Với e rất nhỏ, ta có hai xấp xỉ sau: 


jeten flo) + roer Ta + La +. (2.19) 
ƒ(œ—e)# f(x) — ƒ'(œ)e+ Pa = E E ds (2.20) 

Từ đó ta có: 
Fete) AD s pu, PULL, = f'() + O(e) (2.21) 
fer fe 311.111 .. 


trong đó O() là Big O notation. 
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Hinh 2.1: Giái thích 
cách xấp xỉ đạo hàm 
"ON E báng hinh hoc. 


f (xo + €) — f(xo) 
Pito +€) =f(to — €) 


ı f bo) — f (zo — €) 


--4 


Từ đó, nếu xáp xi dao hàm bằng công thức (2.21) (xáp xi đạo hàm phải), sai só sẽ là O(c). 
Trong khi đó, nếu xấp xỉ đạo hàm bằng công thức (2.22) (xấp xỉ đạo hàm hai phía), sai số 
sẽ là O(e?). Khi e rất nhỏ, O(c?) << O(e), tức cách đánh giá sử dung công thức 2.22 có sai 
số nhỏ hơn, và vì vậy nó được sử dụng nhiều hơn. 


Chúng ta cũng có thể giải thích điều này bằng hình học. 
Bằng hình học 


Quan sát Hình 2.1, vector màu đỏ là đạo hàm chính xác của hàm số tại điểm có hoành độ 
bằng rg. Vector màu xanh lam và xanh lục lần lượt thể hiện cách xấp xi đạo hàm phía phải 
và phía trái. Vector màu nâu thể hiện cách xấp xỉ đạo hàm hai phía. Trong ba vector xấp 
xỉ đó, vector xấp xỉ hai phía màu nâu là gần với vector đỏ nhất nếu xét theo hướng. 


Sự khác biệt giữa các cách xáp xỉ còn lớn hơn nữa nếu tại điểm x, hàm só bi bể cong mạnh 
hơn. Khi đó, xấp xỉ trái và phải sẽ khác nhau rất nhiều. Xấp xỉ hai bên sẽ ổn định hơn. 


Từ đó ta thấy rằng xấp xỉ đạo hàm hai phía là xấp xỉ tốt hơn. 
2.6.2 Xấp xỉ đạo hàm của hàm nhiều biến 


Với hàm nhiều biến, công thức (2.22) được áp dụng cho từng biến khi các biến khác cố định. 
Cụ thể, ta sử dụng định nghĩa của hàm số nhận đầu vào là một ma trận như công thức (2.3). 
Mỗi thành phần của ma trận kết quả là đạo hàm của hàm số tại thành phần đó khi ta coi 
các thành phần còn lại cố định. Chúng ta sẽ thấy rõ điều này hơn ở cách lập trình so sánh 
hai cách tính đạo hàm ngay phía dưới. 


Cách tính xấp xỉ đạo hàm theo phương pháp numerical thường cho giá trị khá chính xác. 
Tuy nhiên, cách này không được sử dụng để tính đạo hàm vì độ phức tạp quá cao so với 
cách tính trực tiếp. Tại mỗi thành phần, ta cần tính giá trị của hàm số tại phía trái và phía 
phải, như vậy sẽ không khả thi với các ma trận lớn. Khi so sánh đạo hàm numerical này 
với dao hàm tính theo công thức, người ta thường giảm số chiều dữ liệu và giảm số điểm dit 
liệu để thuận tiện cho tính toán. Nếu công thức đạo hàm ta tính được là chính xác, nó sẽ 
rất gần với đạo hàm numerical. 
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Doan Code 2.1 giúp kiểm tra đạo hàm của một hàm só khả vi f : R” > 
hai ví dụ. Dé sử dung hàm kiểm tra check grad này, ta cần viết hai hàm. Hàm thứ nhất là 
hàm fnQO tính giá trị của hàm số tại x. Hàm thứ hai là hàm grŒ) tính giá trị của đạo hàm 


mà ta cần kiểm tra. 


R, có kèm theo 


from __future__ import print function 
import numpy as np 


def check grad(fn, gr, X): 


X flat = X.reshape(-1) # convert X to an 1d array -> 1 for loop needed 
shape X = X.shape original shape of X 

num grad = np.zeros like(X) numerical grad, shape = shape of X 
grad flat = np.zeros like(X flat) ld version of grad 

eps = le-6 # a small number, le-10 -> le-6 is usually good 


numElems = X flat.shape[0] # number of elements in X 
# calculate numerical gradient 
for i in range (numElems) : iterate over all elements of X 
Xp flat = X flat.copy() 
Xn flat = X flat.copy() 
Xp flat[i] += eps 
Xn flat[i] -= eps 
Xp = Xp flat.reshape(shape X) 
Xn = Xn_flat.reshape (shape_X) 
grad_flat[i] = (fn(Xp) - fn(Xn))/(2*eps) 


num_grad = grad_flat.reshape (shape_X) 


diff = np.linalg.norm(num grad - gr(X)) 


print('Difference between two methods should be small:', 
# ==== check if grad(trace(A*X)) == A^T ==== 
m, n = 10, 20 
A = np.random.rand(m, n) 
X = np.random.rand(n, m) 
def fn1 (X): 


return np.trace(A.dot (X)) 


def gr1 (X): 
return A.T 


check_grad(fnl, grl, X) 


# ==== check if grad(x^T*A*x) == (A + A^T)*x ==== 
A = np.random.rand(m, m) 
x = np.random.rand(m, 1) 


def fn2 (x): 
return x.T.dot (A) .dot (x) 


def gr2 (x): 
return (A + A.T) .dot (x) 


check grad(fn2, gr2, x) 


diff) 


Code 2.1: Kiém tra dao hàm báng phuong pháp numerical. 


Machine Learning co bàn https: // machinelearningcoban. com 


39 CHUONG 2. GIẢI TÍCH MA TRÁN 


Két quá: 


Difference between two methods should be small: 2.02303323394e-08 
Difference between two methods should be small: 2.10853872281e-09 


Kết quả cho thấy sự khác nhau giữa Frobenious norm (mặc định của np.linalg.norm) của 
kết quả của hai cách tính là rất nhỏ. Sau khi chạy lại đoạn code với các giá trị m, n khác 
nhau và biến x khác nhau, nếu sự khác nhau vẫn là nhỏ, ta có thể tự tin rằng đạo hàm mà 
ta tính được là chính xác. 


Bạn đọc có thể tự kiểm tra lại các công thức trong Bảng 2.1 theo phương pháp này. 
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Chương 3 MEE 


Ôn tập Xác Suát 


Chương nàu được viét dựa trên Chương 2 va 3 của cuốn Computer Vision: Models, Learning, 
and Inference-Simon J.D. Prince (http: //www.computervisionmodels.com). 


3.1 Xác Suát 
3.1.1 Random variables 


Một biến ngẫu nhiên (random variable) x là một đại lượng dùng để do những đại lượng 
không xác định. Biến này có thể được dùng để ký hiệu kết quả/đầu ra (outcome) của một 
thí nghiệm, ví dụ như tung đồng xu, hoặc một đại lượng biến đổi trong tự nhiên, ví dụ như 
nhiệt độ trong ngày. Nếu chúng ta quan sát rất nhiều đầu ra {z;}j_¡ của các thí nghiệm này, 
ta có thể nhận được những giá trị khác nhau ở mỗi thí nghiệm. Tuy nhiên, sẽ có những giá 
trị xáy ra nhiều lần hơn những giá trị khác, hoặc xảy ra gần một giá trị này hơn những giá tri 
khác. Thông tin về đầu ra này được đo bởi một phân phối rác suất (probaility distribution) 
được biểu diễn bằng một hàm p(x). Một biến ngẫu nhiên có thé là rời rac (discrete) hoặc 
liên tục (continuous). 


Một biến ngẫu nhiên rời rạc sẽ lấy giá trị trong một tập hợp các điểm rời rạc cho trước. Ví 
dụ tung đồng xu thi có hai khả năng là head và tail'.Tap các giá trị này có thể là có thứ tự 
như khi tung xúc xắc hoặc không có thú tự, ví dụ khi đầu ra là các giá trị nắng, mưa, bão. 
Mỗi đầu ra có một giá trị xác suất tương ứng với nó. Các giá trị xác suất này không âm và 
có tổng bằng một. 

Nếu z là biến ngẫu nhiên rời rạc thì 2 niu) = 8 (3.1) 


T 


Biến ngẫu nhiên liên tục lấy các giá tri là các só thực. Những giá trị này có thể là hữu hạn, 
ví dụ thời gian làm bài của mỗi thí sinh trong một bài thi 180 phút, hoặc vô hạn, ví dụ thời 


1 đồng xu thường có một mặt có hình đầu người, được gọi là head, trái ngược với mặt này được gọi là mặt tail 
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gian phải chờ tới khách hàng tiếp theo. Không như biến ngẫu nhiên rời rạc, xác suất để đầu 
ra bằng chính xác một giá trị nào đó, theo lý thuyết, là bằng không. Thay vào đó, xác suất 
để đầu ra rời vào một khoảng giá trị nào đó là khác không. Việc này được mó tả bởi hàm 
mật độ xác suất (probability density function - pdf). Hầm mật độ xác suất luôn cho giá trị 
dương, và tích phân của nó trên toàn miền giá trị đầu ra possible outcome phải bằng một. 


Nếu z là biến ngẫu nhiên liên tục thì [oye = 1 (3.2) 


Nếu + la biến ngẫu nhiên ròi rac, thà p(x) < 1, Vx. Trong khi đó, néu x là biến ngẫu 


nhiên liên tục, p(x) có thể nhận giá trị không âm bát ky, điều này van dám bdo là tích 
phân của hàm mật độ xác suất theo toàn bộ giá trị có thé có của x bằng một. 


3.1.2 Xác suất đồng thời 


Xét hai biến ngẫu nhiên x và y. Nếu ta quan sát rất nhiều cặp đầu ra của x và y, thì có 
những tổ hợp hai đầu ra xảy ra thường xuyên hơn những tổ hợp khác. Thông tin này được 
biểu diễn bằng một phân phối được gọi là xác suất đồng thời (joint probability) của x và y, 
được ký hiệu là p(x, y), đọc là xác suất của x và y. Hai biến ngẫu nhiên x và y có thể đồng 
thời là biến ngẫu nhiên rời rạc, liên tục, hoặc một rời rạc, một liên tục. Luôn nhớ rằng tổng 
các xác suất trên mọi cáp giá trị có thể xảy ra (x,y) bằng một. 


Cả x và y là rời rac: b» y)=1 (3.3) 
Y 
Cả x và y là liên tuc: fre. y)dzdy = 1 (3.4) 


x ròi rac, y liên tuc: b» frena = f (= gen) dy = 1 (3.5) 


Xét ví du trong Hinh 3.1, phần có nền màu lục nhạt. Biến ngẫu nhiên x thể hiện điểm thi 
món Toán của học sinh ở một trường THPT trong một kỳ thi Quốc gia, biến ngẫu nhiên y 
thể hiện điểm thi môn Vật Lý cũng trong kỳ thi đó. Dai lượng p(x = 2*, y = y*) là tỉ lệ giữa 
tần suất số hoc sinh được đồng thời x* điểm trong môn Toán và y* điểm trong món Vật Ly 
và toàn bộ số học sinh của trường đó. Tỉ lệ này có thể coi là xác suất khi số học sinh trong 
trường là lớn. Ó đây x* và y* là các số xác định. Thông thường, xác suất này được viết gon 
lại thành p(z*, y*), và p(x, y) được dùng như một hàm tổng quát dé mô ta các xác suất. Giả 
sử thêm rằng điểm các môn là các số tự nhiên từ 1 đến 10. 


Các ô vuông màu lam thể hiện xác suất p(x, y), với diện tích ô vuông càng to thể hiện xác 
suất đó càng lớn. Chú ý rằng tổng các xác suất này bằng một. 


Các ban có thé thấu rằng xác suất để một học sinh được 10 điểm một Toán vá 1 điểm món 
Ly rat thấp, điều tương tự xáy ra vói 10 điểm món Ly và 1 điểm món Toán. Ngược lại, xác 
suất để một học sinh được khoảng 7 điểm cả hai môn là cao nhất. 
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Hinh 3.1: Xác suát dóng thoi (phán trung tám có nén máu luc nhat), Xác suát bién (phía trén 
và bên trái) và Xác suát có điền kiện (phía dưới và bên phải). 


Thông thường, chúng ta sẽ làm việc với các bài toán ở đó xác suất có điều kiện được xác 
định trên nhiều hơn hai biến ngẫu nhiên. Chang hạn, p(z, y, z) thể hiện joint probability của 
ba biến ngẫu nhiên x,y và z. Khi có nhiều biến ngẫu nhiên, ta có thể viết chúng dưới dang 
vector. Cụ thể, ta có thể viết p(x) để thể hiện xác suất có điều kiện của biến ngẫu nhiên 
nhiều chiều x = [#i,#a,...,#„|“. Khi có nhiều tập các biến ngẫu nhiên, ví dụ x và y, ta có 
thể biết p(x, y) để thể hiện xác suất có điều kiện của tất cả các thành phần trong hai bién 
ngẫu nhiên nhiều chiều này. 


Machine Learning cơ bản https: // machinelearningcoban. com 


43 CHUONG 3. ÔN TẬP XÁC SUÁT 


3.1.3 Xác suất biên 


Nếu biết xác suất đồng thời của nhiều biến ngẫu nhiên, ta cũng có thể xác định được phân 
phối xác suất của từng biến bằng cách lấy tổng với biến ngẫu nhiên rời rạc hoặc tích phân 
với biến ngẫu nhiên liên tục theo tất cả các biến còn lại: 


Nếu zx, y rời rac: p(x) = 5 pay) (3.6) 
p(y) = ` p(z, y) (3.7) 
Nếu z, y liên tuc: p(x) = frena (3.8) 


p) = [ v yz (39) 
Với nhiều bién hơn, chàng han bốn biến rời rac x, y, z, w, cách tính được thực hiện tương tự: 


p(z) = À p(z y 2,0) (3.10) 


y,z,w 


p(z,y) = Y plz, y, z, w) (3.11) 


Cách xác định xác suất của một bién dựa trên xác suất đồng thời của nó với các bién khác 
được goi là marginalization. Phan phối đó được gọi là rác suất bién (marginal probability). 


Từ đây trở đi, nếu không dé cập gì thêm, chúng ta sẽ dùng ký hiệu Y) dé chỉ chung cho 
cả hai loại biến. Nêu biến ngẫu nhiên là liên tục, bạn đọc ngầm hiểu rằng dấu Y) cần được 
thay bằng dấu tích phân f, biến lấy vi phân chính là biến được viết dưới dấu `. Chàng 
hạn, trong (3.11), nếu z là liên tục, w là rời rạc, công thức đúng sẽ là 


ĐỀU, U] = ` (fos waz) x: I (Somes) dz (3.12) 
Quay lại ví du trong Hình 3.1 với hai biến ngẫu nhiên rời rac x, y. Lúc nay, p(x) được hiểu 
là xác suất để một học sinh đạt được z điểm môn Toán. Xác suất này được thể hiện ở khu 
vực có nền màu tím nhạt, phía trên. Nhắc lại rằng xác suất ở đây thực ra là tỉ lệ giữa số 
học sinh đạt z điểm môn Toán và toàn bộ số học sinh. Có hai cách tính xác suất này. Cách 
thứ nhất, dựa trên cách vừa định nghĩa, là đếm só hoc sinh được x điểm môn toán rồi chia 
cho tổng số học sinh. Cách tính thứ hai dựa trên xác suất đồng thời đã biết về xác suất để 
một hoc sinh được z điểm món Toán và điểm môn Lý. Số lượng hoc sinh dat z = z* điểm 
món Toán sẽ bằng tổng số lượng hoc sinh đạt x = z* điểm môn Toán và điểm môn Lý, 
với y là một giá trị bất kỳ từ 1 đến 10. vì vậy, để tính xác suất p(z), ta chỉ cần tính tổng 
của toàn bộ p(x, y) với y chay từ 1 đến 10. Tương tự nếu ta muốn tính p(y) (xem phần bên 
trái của khu vực nền tím nhạt). 


Dựa trên nhận xét này, mỗi giá trị của p(x) chính bằng tổng các giá trị trong cột thứ x của 
hình vuông trung tâm nền xanh lục. Mỗi giá trị của p(y) sẽ bằng tổng các giá trị trong hàng 
thứ tính từ đưới lên. Chú ý rằng tổng các xác suất luôn bằng một. 
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3.1.4 Xác suất có điều kiện. 


Dựa vào phân phối điểm của các học sinh, liệu ta có thể tính được xác suất để một học sinh 
được điểm 10 môn Lú, biết rằng học sinh đó được điểm 1 môn Toán? 


Xác suất để một biến ngẫu nhiên z nhận một giá trị nào đó biết rằng biến ngẫu nhiên 
y có giá trị y* được gọi là rác suất có điều kiên (conditional probability), được ký hiệu là 
p(z|y = y^). 


Xác suất có điều kiện p(z|y = y*) có thé được tính dựa trên xác suất đồng thời p(z, y). Quay 
lai Hình 3.1 với vùng có nền màu nâu nhạt. Nếu biết rằng y = 9, xác suất p(z| = 9) có thé 
tính được dựa trên hang thứ chín của hình vuông trung tâm, tức hang p(x, y = 9). Trong 
hàng này, những ô vuông lớn hơn thể hiện xác suất lớn hơn. Tương ứng như thế, p(z|y = 9) 
cũng lớn nếu p(x, y = 9) lớn. Chú ý rằng tổng các xác suất $^, p(r, y = 9) nhỏ hơn một, và 
bằng tổng các xác suất trên hàng thứ chín này. Để thoả mãn điều kiện tổng các xác suất 
bằng một, ta cần chia mỗi đại lượng p(x, y = 9) cho tổng của toàn hàng này. Tức là 
p(x,y=9) _ ple,y=9) 


PSI NUS UC py 


Tóng quát, 
à p(xy-—w) _ p(œ,Uu=) 
pay = y“) = = : 3.14 
ớ ) plz y=y) py=y*) p 


ở đây ta đã sử dụng công thức tính xác suất biên trong (3.7) cho mẫu số. Thông thường, ta 
có thể viết xác suất có điều kiện mà không cần chi rõ giá tri y = ¿ và có công thức gon hon: 


PEY) .. ply, v) 
p(z|y) = , và tương tu, p(y|z) = 3.15 
(v|y) T (yle) "S (3.15) 
Từ đó ta có quan hệ 
p(z, y) = p(v|y)p(y) = p(w|+)p(z) (3.16) 
Khi có nhiều hon hai biến ngẫu nhiên, ta có các công thức 
p(z, y, 2,0) = plz, y, z|w)p(w) (3.17) 
= p(x, y|z, w)p(z, w) = p(z, ylz, w)p(2|w)p(w) (3.18) 
= p(xly, z, w)p(y|z, w)p(z|w)p(w) (3.19) 


Công thức (3.19) có dạng chuói (chain) và được sử dung nhiều sau này. 
3.1.5 Quy tắc Bayes 
Công thức (3.16) biểu diễn xác suất đồng thời theo hai cách. Từ đó ta có thể suy ra: 


p(y|z)p(x) = p(v|y)p(v) (3.20) 
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Biến đối một chút: 


p(y|x) = B (3.21) 
_P(|)p0)_ (3.23) 


= 2 P(aly)P(y) 


ở đó dòng thứ hai và thứ ba các công thức về xác suất bién và xác suất đồng thời ở mẫu số 
đã được sử dụng. Từ (3.23) ta có thể thấy rằng p(y|r) hoàn toàn có thé tính được nếu ta 
biết mọi p(z|y) và p(y). Tuy nhiên, việc tính trực tiếp xác suất này thường là phức tap. 


Ba công thức (3.21)-(3.23) thường được gọi là Quy tắc Bayes (Bayes' rule). Chúng 
được sử dụng rộng rãi trong Machine Learning 


3.1.6 Biến ngẫu nhiên độc lập 

Nếu biết giá tri của một biến ngẫu nhiên x không mang lại thông tin về việc suy ra giá 
trị của biến ngẫu nhiên (và ngược lại), thì ta nói rằng hai biến ngẫu nhiên là độc lập 
(independent). Cháng hạn, chiều cao của một học sinh và điểm thi môn Toán của học sinh 


đó có thể coi là hai biến ngẫu nhiên độc lập. 


Khi hai biến ngẫu nhiên z và y là độc lập, ta sẽ có: 


p(z|u) = p(x) (3.24) 
p(ylz) = p(y) (3.25) 

Thay vào biểu thức xác suất đồng thời trong (3.16), ta có: 
P(x, y) = p(z|0)p§U) = p(=)p(y) (3.26) 


3.1.7 Kỳ vọng và ma trận hiệp phương sai 
Kỳ vong (expectation) của một bién ngẫu nhiên được định nghĩa là 


Elx] = y zp(z) néu z là ròi rac (3.27) 
Elx] = ] oe néu z là lién tuc (3.28) 


Giả sử ƒ(.) là một hàm số trả vé một só với mỗi giá trị z* của bién ngẫu nhiên z. Khi đó, 
nếu x là biến ngẫu nhiên rời rac, ta sẽ có 


E[ƒ()] = 9 f(@)p(@) (3.29) 
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Công thức cho biến ngẫu nhiên liên tục cũng được viết tương tự. 
Với xác suất đồng thời 


Elf(2,9)] = V 7 f(x, w)p(z, y)dzdy (3.30) 


xy 
Có ba tinh chất cần nhớ vé kỳ vọng: 
1. Kỳ vọng của một hằng số theo một biến ngẫu nhiên x bát kỳ bằng chính hằng số đó: 


Ela] =a (3.31) 


2. Kỳ vọng có tính chất tuyến tính: 


Elaz] = oE[x] (3.32) 
EL f(x) + 9(@)] = Elf ()]  Elg(z)] (3.33) 


3. Ky vong cúa tich hai bién ngáu nhién bang tích ky vong cúa hai bién dó néu hai bién 
ngẫu nhiên đó là độc lập. 


E[/(z)ø()] = E|ƒ()]E|ø(0)] (3.34) 


Khái niệm kỳ vọng thường đi kèm với khái niệm phương sai(variance) trong không gian một 
chiều, và ma trận hiệp phương sai (covariance matrix) trong không gian nhiều chiều. 


Với dữ liệu một chiều 


Cho N giá tri z1,22,..., Ty. KY vong và phương sai của bộ dữ liệu này được tính theo công 
thức: 
N 
_ 1 1 
i, 2 „2n =wxI (3.35) 
D 
2_ E 
0? = y 2,6 7) (3.36) 
VỚI %4 = 2i, vita TOM và 1 € R là vector cột chứa toàn phần tử 1. Ky vong đơn gián 


là trung binh cộng của toàn bộ các giá tri. Phương sai là trung binh cộng của binh phương 
khoảng cách từ mỗi điểm tới kỳ vọng. Phương sai càng nhỏ thì các điểm dữ liệu càng gần 
với kỳ vọng, tức các điểm dữ liệu càng giống nhau. Phương sai càng lớn thì ta nói dữ liệu 
càng có tính phân tán. Ví dụ về kỳ vọng và phương sai của dữ liệu một chiều có thể được 
thấy trong Hình 3.2a. Cán bậc hai của phương sai, c còn được gọi là độ lệch chuẩn (standard 
deviation) của dit liệu. 
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Với dữ liệu nhiều chiều 


Cho N điểm dữ liệu được biểu diễn bởi các vector cột x4,...,xy, khi đó, vector ky vong và 
ma trận hiép phương sai của toàn bộ dữ liệu được định nghĩa là: 


— l 
x= N 2% (3.37) 
IS 1 
= = TO ~ yy 
Ses » -X)x.-Xx) = ¿XX (3.38) 


Trong dó x được tao bằng cách trừ mỗi cột của X di x: 
Xu = XQ X (3.39) 
Một vài tính chất của ma trận hiệp phương sai: 


e Ma trận hiệp phương sai là một ma trận đối xứng, hơn nữa, nó là một ma trận nửa xác 
định dương. 


e Mọi phần tử trên đường chéo của ma trận hiệp phương sai là các số không âm. Chúng 
cũng chính là phương sai của từng chiều của dit liệu. 


e Các phần tử ngoài đường chéo s;;,i # j thể hiện sự tương quan giữa thành phan thứ i 
và thứ 7 của dữ liệu, còn được gọi là hiệp phương sai. Giá trị này có thể dương, âm hoặc 
bằng không. Khi nó bằng không, ta nói rằng hai thành phần i,j trong dit liệu là không 
tương quan (uncorrelated). 


e Nếu ma trận hiệp phương sai lá ma trận đường chéo, ta có dí liệu hoàn toàn không tương 
quan giữa các chiều. 


Ví du về dit liệu không tương quan và tương quan được cho trong Hình 3.2b và 3.2c. 
3.2 Một vài phân phối thường gặp 
3.2.1 Phân phối Bernoulli 


Phân phối Bernoulli là một phân phối rời rạc mô tả các biến ngẫu nhiên nhị phân: trường 
hợp đầu ra chỉ nhận một trong hai giá trị z € {0,1}. Hai giá trị này có thể là head và tail 
khi tung đồng xu; có thể là giao địch lừa đảo và giao dịch thông thường trong bài toán xác 
định giao dịch lừa đảo trong tín dụng: có thể là người và không phải người trong bài toán 
tìm xem trong một bức ảnh có người hay không. 


Bernoulli distribution được mô tả bằng một tham số A € [0,1] và là xác suất dé biến ngẫu 
nhiên zr = 1. Xác suất của mỗi đầu ra sẽ là 


Ar=b=A4 reU elepnprselel-34 (3.40) 
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Hình 3.2: Ví du vé kỳ vọng và phương sai. (a) Trong không gian một chiéu. (b) Trong không 
gian hai chiều mà hai chiều không tương quan. Trong trường hợp này, ma trận hiệp phương sai 
là ma trận đường chéo với hai phan tử trên đường chéo là o1, ơa, đây cũng chính là hai trị riêng 
của ma trận hiệp phương sai và là phương sai của mỗi chiều dữ liệu. (c) Dữ liệu trong không gian 
hai chiều có tương quan. Theo mỗi chiều, ta có thể tính được kỳ vọng và phương sai. Phương 
sai càng lớn thì dữ liệu trong chiều đó càng phân tán. Trong ví dụ này, dữ liệu theo chiều thứ hai 
phân tán nhiều hơn so so với chiều thứ nhất. 


Hai đẳng thức này thường được viết gọn lại: 

plx) = A*(1— A) 79 (3.41) 
với giả dinh rằng 0? = 1. Thật vậy, p(0) = À?(1 — A)! = 1 — A, và p(1) = A!(1— A)? =A. 
Phân phối Bernoulli thường được ký hiệu ngắn gọn dưới dang 


p(x) = Bern;[A] (3.42) 


3.2.2 Phan phói Categorical 


Trong nhiều trường hợp, đầu ra của biến ngẫu nhiên rời rac có thể là một trong nhiều hơn 
hai giá trị khác nhau. Ví dụ, một bức ảnh có thể chứa một chiếc xe, một người, hoặc một 
con mèo. Khi đó, ta dùng một phân phối tổng quát của phân phối Bernoulli, được gọi là 
phán phối Categorical. Cac đầu ra được mô tả bởi một phần tử trong tập hợp {1,2,..., K}. 


Nếu có đầu ra, phân phối Categorical sẽ được mô tả bởi tham số, viết dưới dạng vector: 
A = Du, As, ..., Ax] với các Az không âm và có tổng bằng một. Mỗi giá tri Aj thể hiện xác 
suất để đầu ra nhận giá trị k: p(x = k) = Ax. 


Phân phối Categorical thường được ký hiệu dưới dạng: 


p(x) = Catu|Al (3.43) 
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bivariate normal distribution 


P(x, y) 


(b) 


Hình 3.3: Ví du vé hàm mật độ xác suất của (a) phân phối chuẩn một chiều, và (b) phân phối 
chuán hai chiều. 


Nếu thay vì biểu diễn đầu ra là một só k trong tập hợp {1,2,..., K}, ta biểu diễn đầu ra là 
một vector ở dạng one-hot, tức một vector phần tử với chỉ phần tử thứ k bằng một, các 
phần tử còn lại bằng không. Nói cách khác, tập hợp các đầu ra là tập hợp các vector đơn vị 


bậc K: x € [e,,€2,...,ex ) với ez là vector đơn vị thứ k. Khi đó, ta sẽ có 
K 
p(x = ex) = |[Xƒ = à (3.44) 
j=1 


Khi x = ex, zy = 1,2; =0, Vj 4 k. Thay vào (3.44) ta sé được p(x = ex) = Ax = p(x = k). 
3.2.3 Phân phối chuẩn một chiều 


Phân phối chuẩn một chiều (univariate normal hoặc Gaussian distribution) được định nghĩa 
trên các bién liên tục nhận giá trị x € (—00,00). Đây là một phân phối được sử dụng nhiều 
nhất với các biến ngẫu nhiên liên tục. Phân phối này được mô tả bởi hai tham số: kỳ vong 
y và phương sai (variance) o?. Giá trị u có thể là bát kỳ số thực nào, thể hiện vị trí của giá 
trị mà tại đó mà hàm mật độ xác suất đạt giá trị cao nhất. Giá trị 0? là một giá trị dương, 
với o thể hiện độ rộng của phân phối này. o lớn chứng tỏ khoảng giá trị đầu ra có khoảng 
biến đổi mạnh, và ngược lại. 


Hàm mật độ xác suất của phân phối này được định nghĩa là 


ades = a (“S7”) (3.45) 


Hoặc được viết gon hơn dưới dang p(x) = Norm,[u, o°], hoặc N (pu, o°). 


Ví dụ về đồ thị hàm mật độ xác suất của phân phối chuẩn một chiều được cho trên Hình 3.3a. 
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3.2.4 Phân phối chuẩn nhiều chiều 


Phân phối này là trường hợp tổng quát của phân phối chuẩn khi biến ngẫu nhiên là nhiều 
chiều, giả sử là D chiều. Có hai tham số mô tả phân phối này: vector ky vong u € R? và 
ma trận hiệp phương sai Y € SP là một ma trận đối xứng xác định duong. 


Hàm mật độ xác suất có dạng 


IE) (3.46) 


với [>| là định thức của ma trận hiệp phương sai >. 
Phân phối này thường được viết gon lại dưới dang p(x) = Norm,[p, X], hoặc .V(, Y). 


Ví dụ về hàm mật độ xác suất của một phân phối chuẩn hai chiều (bivariate normal distri- 
bution) được mó tả bởi một mặt cong cho trên Hình 3.3b. Nếu cắt mặt này theo các mặt 
phẳng song song với mặt đáy, ta sẽ thu được các hình ellipse đồng tâm. 


3.2.5 Phân phối Beta 


Phân phối Beta (Beta distribution) là một phan phối liên tục được định nghĩa trên một bién 
ngẫu nhiên A € [0,1] Phân phối Beta distribution được dùng để mô tả tham só cho một 
distribution khác. Cụ thể, phân phối này phù hợp với việc mô tả sự bién động của tham só 
A trong phân phối Bernoulli. 


Phân phối Beta được mô tả bởi hai tham số đương a, 8. Hàm mật độ xác suất của nó là 


T(œ+8) 


a—1 _ B—1 
ONO] =j (3.47) 


p(A) = 


với T (.) là hàm só gamma, được định nghĩa là 


a= [ t^. exp(—t)dt (3.48) 


Trên thực té, viéc tính giá tri của ham só gamma không thực sự quan trọng vi nó chi mang 
tính chuẩn hoá dé tổng xác suất bằng một. 


Dang gọn của phân phối Beta: p(A) = Beta, la, 8] 


Hinh 3.4 minh hoa các hàm mật độ xác suất của phân phối Beta với các cặp giá tri (a, 8) 
khác nhau. 


e Trong Hình 3.4a, khi œ = Ø. Đồ thị của các hàm mật độ xác suất đối xứng qua đường 
thắng A = 0.5. Khi œ = f = 1, thay vào (3.47) ta thấy p(A) = 1 với moi A. Trong trường 
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pA) 


Hình 3.4: Vi dụ vé hàm mật độ xác suất của phân phôi Beta. (a) a = 
xứng. (b) a < B, đồ thi hàm sô lệch sang trái, chứng tỏ xác suát A nhỏ là lớn. (c) a > 6, đồ thị 
hàm sô lệch sang phải, chứng tỏ xác suât À lớn là lớn. 


hợp nay, phân phối Beta trở thành phân phối đều (uniform distribution). Khi a = B > 1, 
các hàm số đạt giá trị cao tại gần trung tâm, tức là khả năng cao là À sẽ nhận giá trị 
xung quanh điểm 0.5. Khi a = 8 < 1, hàm số đạt giá trị cao tại các điểm gần 0 và 1. 


e Trong Hinh 3.4b, khi a < 8, ta thấy rằng đồ thi có xu hướng lệch sang bên trái. Các giá 
trị (a, đ) này nên được sử dụng nếu ta dự đoán rằng A là một số nhỏ hon 0.5. 


e Trong Hình 3.4c, khi œ > Ø, điều ngược lại xảy ra với các hàm sồ đạt giá trị cao tại các 
điểm gần 1. 


3.2.6 Phân phối Dirichlet 


Phân phối Dirichlet chính là trưởng hợp tổng quát của phân phối Beta khi được dùng để mô 
tả tham số của phân phối Categorical. Nhắc lại rằng phân phối Categorical là trường hợp 
tổng quát của phân phối Bernoulli. 

Phân phối Dirichlet được định nghĩa trên K bién liên tục À¡,..., Ax trong đó các Az không 
âm và có tổng bằng một. Bởi vậy, nó phù hợp để mô tả tham số của phân phối Categorical. 


Có K tham số dương để mô tả một phân phối Dirichlet: o4,..., o. 


Hàm mật độ xác suất của phân phối Dirichlet là 


P(E %) TT aii 
ei = [pan 3.49 
a II I'(ax) k=1 | ! 


Cách biểu diễn ngắn gọn: p(A1,...,Ax) = Dira... [03,0] 
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Chương 4 


Maximum Likelihood va Maximum A 
Posteriori 


4.1 Giói thieu 


Có rát nhiéu mó hinh machine learning dugc xày dung dua trén các mó hinh thóng ké 
(statistical models). Cac mô hinh thông kê thường dựa trên các phân phối xác suất dà được 
đề cập trong Chương 3. Với phân phối Bernoulli, tham só là biến A. Với phân phối chuẩn 
nhiều chiều, các tham só là mean vector và ma trận hiệp phương sai X. Với một mô hinh 
thông kê bất kỳ, ký hiệu Ø là tập hợp tất cả các tham số của mô hình đó. Learning chính là 
quá trình ước lượng (estimate) bộ tham só Ø sao cho mô hình tìm được khớp với phân phối 
của dí liệu nhất. Quá trình này còn được gọi là ước lượng tham só (parameter estimation). 


Có hai cách ước lượng tham số thường được dùng trong các mô hình machine learning thống 
kê. Cách thứ nhất chi dựa trên dữ liệu đã biết trong tập huấn luyện, được gọi là maximum 
likelihood estimation hay ML estimation hoặc MLE. Cách thứ hai không những dựa trên tập 
huấn luyện mà còn dựa trên những thông tin biết trước của các tham số. Những thông tin 
này có thé có được bằng cám quan của người xây dựng mô hinh. Cám quan càng rõ ràng, 
càng hợp lý thì khả năng thu được bộ tham số tốt là càng cao. Cháng hạn, thông tin biết 
trước của À trong Bernoulli distribution là việc nó là một số trong đoạn I0, 1|. Với bài toán 
tung đồng xu, với A là xác suất có được mặt head, ta dự đoán được rằng giá trị này nên là 
một số gần với 0.5. Cách ước lượng tham số thứ hai này được gọi là maximum a posteriori 
estimation hay MAP estimation. Trong chương này, chúng ta cùng tìm hiểu ý tưởng và cách 
giải quyết bài toán ước lượng tham số mô hình theo MLE hoặc MAP Estimation. 
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4.2 Maximum likelihood estimation 


4.2.1 Y tuóng 


Giá sử có các điểm dữ liệu x4, x»,..., xy. Giá sử thêm rằng ta đã biết các điểm dữ liệu này 
tuân theo một phân phối nào đó được mô tả bởi bộ tham số 0. 


Maximum likelihood estimation là việc đi tìm bộ tham số Ø sao cho xác suất sau đây đạt giá 
trị lớn nhất: 
0 = max p(X1,..., XA |) (4.1) 


Biéu thúc (4.1) có $ nghia nhu thé nào và vi sao viéc này có 1$? 


Giả sử rằng ta dà biết dạng của mô hinh, và mô hinh này được mó tả bởi bó tham số 0. Nhu 
vậy, (x¡|Ø) chính là xác suất xảy ra sự kiên xı biết rằng mô hình được mô tả bởi bộ tham 
số Ø (đây là một xác suất có điều kiện). Và p(xị,...,xx|Ø) chính là xác suất dé toàn bộ các 
sự kiện X4,X2,...,Xxw đồng thời xảy ra, xác suất đồng thời này còn được gọi là likelihood. Ó 
đây, likelihood chính là hàm mục tiêu. 


Bởi vì sự việc đã xảy ra, tức dữ liệu huấn luyện bản thân chúng đã như thế, xác suất đồng 
thời này cần phải càng cao càng tốt. Việc này cũng giống như việc đã biết kết quá, và ta cần 
đi tìm nguyên nhân sao cho xác suất xảy ra kết quả càng cao càng tốt. MLE chính là việc 
đi tìm bộ tham số Ø sao cho Likelihood là lớn nhất. Trong mô hình này ta cũng có một bài 
toán tối ưu với hàm mục tiêu là p(xi,...,xyw|0). Lúc này ta không tối thiểu hàm mục tiêu 
mà cần tối đa nó, vì ta muốn rằng xác suất xảy ra việc này là lớn nhất. 


4.2.2 Giả sử về sự độc lập và log-likelihood 
Việc giải trực tiếp bài toán (4.1) thường là phức tạp vì việc đi tìm mô hình xác suất đồng 


thời cho toàn bộ dí liệu là ít khi khả thi. Một cách tiếp cận phổ biến là giả sử đơn giản rằng 
các điểm dữ liệu x„ là độc lập với nhau. Nói cách khác, ta xấp xỉ likelihood trong (4.1) bởi 


p(X,...,Xw 10) = | | p(x,10) (4.2) 


(Nhắc lại rằng hai sự kiện x, y là độc lập nếu xác suất đồng thời của chúng bằng tích xác suất 
của từng sự kiện: p(x, y) = p(x)p(y). Và khi là xác suất có điều kiện: p(x, |z) = p(z|z)p(ø|z).) 
Lúc đó, bài toán (4.1) có thể được giải quyết bằng cách giải bài toán tối ưu sau: 


0 = max ll» (8) (4.3) 


n=1 


Việc tối ưu một tích thường phức tạp hơn việc tối ưu một tổng, vi vậy việc tối da hàm mục 
tiêu thường được chuyển về việc tối đa log của hàm mục tiêu: 


9 = max X log (p(xa|9)) (4.4) 
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On lại một chút vé hai tính chát của hàm logarit: (i) log của một tích bằng tổng của các 
log, và (ii) vì log là một hàm đồng biến, một biểu thức dương sẽ là lớn nhất nếu log của nó 
là lớn nhất, và ngược lại. 

4.2.3 Ví dụ 

Ví dụ 1: phân phối Bernoulli 


Bài toán: giả sử tung một đồng xu lần và nhận được n mặt head. Ước lượng xác suất 
khi tung đồng xu nhận được mặt head. 


Loi giải: 


Một cách trực quan, ta có thể ước lượng được rằng xác suất đó chính là À = £. Chúng ta 
cùng ước lượng giá tri này sử dụng MLE. 


Giá sử A là xác suất để nhận được một mặt head. Đặt z1, £2,..., £y là các đầu ra nhận 


được, trong đó có n giá trị bằng 1 tương ứng với mát head và m = N — n giá trị bằng 0 
tương ứng với mặt tail. Ta có thể suy ra ngay rằng 


N N 
yon, N—» 4=N-n=m (4.5) 


Vì day là một xác suất của biến ngẫu nhiên nhị phân rời rac, ta có thể nhận thấy việc nhận 
được mặt head hay tail khi tung đồng xu tuân theo phân phối Bernoulli: 
p(z;|X) = A* (1 = AJO (4.6) 


Khi đó tham só mô hinh A có thé được ước lượng bằng việc giải bài toán tối ưu sau đây, với 
giả sử rằng kết quả của các lần tung đồng xu là độc lập với nhau: 


N 
A = argmax [p(#1, £2, ..., zN|A)] = argmax TI Hei) (4.7) 
A A zu 
2i N N 
= argmax II X" — y] — argmax pes » Ni] (4.8) 
A E A 
= argmax[A”(1 — A)”] = argmax [n log(A) + mlog(1 — A)] (4.9) 
à A 


trong (4.9), ta dá lấy log của hàm mục tiêu. Tới đây, bài toán tối ưu (4.9) có thể được giải 
bằng cách lấy đạo hàm của hàm mục tiêu bằng 0. Tức À là nghiệm của phương trình 


n n I n n 
AAA D 


Vậy kết quả ta ước lượng ban đâu là có cơ só. 
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Ví du 2: Categorical distribution 
Một ví dụ khác phức tạp hon một chút. 


Bài toán: giả sử tung một viên xúc xắc sáu mặt có xác suất rơi vào các mặt có thể không 
đều nhau. Giả sử trong lần tung, số lượng xuất hiện các mặt thứ nhất, thứ hai,..., thứ 
6 


sáu lần lượt là n4,n5,...,ng lần với Ns nj = N. Tính xác suất rơi vào mỗi mặt ở làn tung 
tiếp theo. Giả sử thêm rằng n; > 0, Vi = 1,..., 6. 
Loi gidi: 


Bài toán này có vé phức tap hon bài toán trên một chút, nhưng ta cũng có thể dự đoán được 
ước lượng tốt nhất của xác suất rơi vào mặt thứ i là A; = E. 


Má hoá mỗi quan sát đầu ra thứ i bởi một vector 6 chiều x; € {0, 1}° trong đó các phần 
tử của nó bằng 0 trừ phần tử tương ứng với mặt quan sát được là bằng 1. Nhận thấy rằng 
iS ai = nj, Vj = 1,2,...,6, trong đó q? là thành phan thứ j của vector x;. 


Có thé tháy ráng xác suát roi vào mói mát tuàn theo phán phói categorical vói các tham só 
Aj >0,7=1,2,...,6. Ta dùng A dé thé hién cho cá sáu tham só này. 


Vói các tham só A, xác suát dé su kién x; xáy ra là 
6 
po) = J [A7 (4.11) 


Khi đó, vẫn với giả sử về sự độc lập giữa các làn tung xúc xác, ước lượng bó tham só A dua 
trên việc tối đa log-likelihood ta có: 


A= arenes I (x;|A) |- = ai il lI J (4.12) 


i=1 i=1 j=1 
6 
= argmax ID?“ "j = EAS II] (4.13) 
à j=1 j=1 
6 
= argmax > nj xo] (4.14) 
A : 
j=1 


Khác với bài toán (4.9) một chút, chúng ta không được quên điều kiện DE à; = 1. Ta có 
bài toán tối ưu có ràng buộc sau đây 


6 6 
max? nj log(A;) thoả mãn: p» Aj=1 (4.15) 


j=1 
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Bài toán tối uu này có thể được giải bằng phương pháp nhân tú Lagrange (xem Phụ lục A). 


Lagrangian của bài toán này là 


L(A, 1) = 2 n¿log(Aj) + w(1 Y Ay) (4.16) 


= 


Nghiệm của bài toán là nghiệm của hé đạo hàm của £(.) theo từng biến bằng 0 


OLA, u) nj -— 

DU c jo c0. Y= 12,556 (4.17) 
OLA, p) : 
—_— =] À;=0 4.18 


6 
X iuc) nN (4.19) 


Từ đó ta có ước lượng A; = 2, Vj =1,2,...,6. 


Qua hai ví du trên ta thấy MLE cho hết quả khá hợp lý. 
Ví du 3: Univariate normal distribution 


Bài toán: Khi thực hiện một phép do, giả sử rằng rất khó để có thể do chính rác độ dài 
của một vật. Thay vào đó, người ta thường đo vật đó nhiều lần rồi suy ra kết quả, với giả 
thiết rằng các phép đo là độc lập với nhau và kết quả mỗi phép đo là một phân phối chuẩn. 
Uóc lượng chiều dài của vật đó dựa trên các kết quả đo được. 


Lời giả¿:Vì biết rằng kết quả phép đo tuân theo phân phối chuẩn, ta sẽ cố gắng đi xây 
dựng phân phối chuẩn đó. Chiều dài của vật có thể được coi là giá trị mà hàm mật độ xác 
suất đạt giá trị cao nhất, tức khả năng rơi vào khoảng giá trị xung quanh nó là lớn nhất. 
Trong phân phối chuẩn, ta biết rằng hàm mật độ xác suất đạt giá trị lớn nhất tại chính kỳ 
vọng của phân phối đó. Chú ý rằng kỳ vọng của phân phối và kỳ vọng của dữ liệu quan sát 
được có thể không chính xác bằng nhau, nhưng rất gần nhau. Nếu ước lượng kỳ vọng của 
phân phối như cách làm dưới đây sử dung MLE, ta sẽ thấy rằng ky vọng của dữ liệu chính 
là đánh giá tốt nhất cho kỳ vọng của phân phối. 

Thật vậy, giả sử các kích thước quan sát được là z,25,...,zw. Ta cần di tìm một phan 
phối chuẩn, được mô tả bởi một giá trị kỳ vong u và phương sai c?, sao cho các giá tri 


x1,19,..., CN là likely nhất. Ta đã biết rằng, hàm mật độ xác suất tai x; của môt phân phối 
chuẩn có kỳ vong u và phương sai o? là 


2 1 i i 
PES E ERR EE a (4.20) 
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Vậy, để đánh giá u và o, ta sử dung MLE với giả thiết rằng kết qua các phép do là độc lập: 


N 
|i, 0 = argmax II plz, 0) (4.21) 
H, 


8 ¿=1 


= os xe exp (- Man 1) ) (4.22) 


2 J(u, a] (4.23) 


= argmax . — 


po 


Ta đã lấy log của hàm bên trong dấu ngoặc vuông của (4.22) dé được (4.23), phần hằng só 
có chứa 27 cũng đã được bó đi vì nó không ảnh hưởng tới kết quả. 


Để tìm u và c, ta giải hé phương trình dao hàm của J(u, 0) theo mỗi biến bằng không: 


BE. ı č 

— = — (zi—u)-0 (4.24) 

ðu o? = 

ðJ N 1 A | n? — 0 aa 

pc tor ER ` 
uh Ti 2 — Ya — py? 

ae eS N (4.26) 


Kết quả thu được không có gi bất ngờ. 


Ví dụ 4: Multivariate normal distribution 


Bài toán: Giá sử tap dữ liệu ta thu được là các giá trị nhiều chiều xị,...,xxy tuân theo 
phân phối chuẩn. Hãy đánh giá các tham số, vector kỳ vọng và ma trận hiệp phương sai 
Y của phân phối này dựa trên MLE, giả sử rằng các xị,...,x„ là độc lập. 


Lời giải: Việc chứng minh các công thức 


e es Xi (4.27) 
=D)” (4.28) 


i=1 


xin được dành lại cho bạn đọc như một bài tập nhỏ. Dưới đây là một vài gợi y: 


e Hàm mật độ xác suất của phân phối chuẩn nhiều chiều là 


1 1 Tol 
p(xlw.) = ore exw (gs AER) 29) 


Chú ý rằng ma trận hiệp phuong sai X là xác định dương nén có nghịch đảo. 
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e Một vài dao hàm theo ma trận: 


Vs log|N| = (NX 57 2 357 (chuyển vị của nghịch đảo) (4.30) 
Vx(x;— YN (x; — u) = -ET (x; — pw) (x; — H) UT (4.31) 


(Xem thêm Matrix Calculus, mục D.2.1 và D.2.4 tai https: // goo.gl/ JKg631.) 


4.3 Maximum a Posteriori 


4.3.1 Y tuóng 


Quay lại với ví dụ 1 về tung đồng xu. Nếu tung đồng xu 5000 lần và nhận được 1000 lần 
head, ta có thể đánh giá xác suất của head là 1/5 và việc đánh giá này là đáng tin vì số mẫu 
là lớn. Nếu tung 5 lần và chỉ nhận được 1 mặt head, theo MLE, xác suất để có một mặt head 
được đánh giá là 1/5. Tuy nhiên với chỉ 5 kết quả, ước lượng này là không đáng tin, nhiều 
khả năng việc đánh giá đã bị overfitting. Khi tập huấn luyện quá nhỏ (low-training) chúng 
ta cần phải quan tâm tới một vài giả thiết của các tham số. Trong ví dụ này, giả thiết của 
chúng ta là xác suất nhận được mặt head phải gần 1/2. 


Maximum A Posteriori (MAP) ra đời nhằm giải quyết vấn đề này. Trong MAP, chúng ta 
giới thiệu một giả thiết biết trước, được gọi là prior, của tham số Ø. Từ giả thiết này, chúng 
ta có thể suy ra các khoảng giá trị và phân bố của tham số. 


Ngược với MLE, trong MAP, chúng ta sẽ đánh giá tham số như là một xác suất có điều kiện 
của dữ liệu: 


0 = argmax p(0|Xi,...; xw) (4.32) 
0 —— 
posterior 
Biểu thức p(Ø|xị,...,xw) còn được goi là zác suất posterior của 0. Chính vì vậy mà việc 


ước lượng 0 theo (4.32) được gọi là Maximum A Posteriori. 


Thông thường, hàm tối ưu trong (4.32) khó xác định dạng một cách trực tiếp. Chúng ta 
thường biết điều ngược lại, tức nếu biết tham số, ta có thể tính được hàm mật độ xác suất 
cua dữ liệu. Vì vậy, để giải bai toán MAP, ta thường sử dụng quy tác Bayes. Bài toán MAP 
thường được biến đổi thành 


likelihood prior 
XRO 
0 = argmax p(0|x,,..., Xy) = argmax POS AO, (4.33) 
0 0 A XN) 
A Aa 
evidence 
= argmax [p(xạ, .., xx|9)p() (4.34) 


0 


a i=1 


= argmax II rosin) (4.35) 
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Dáng thúc (4.33) xáy ra theo quy tác Bayes. Dáng thúc (4.34) xáy ra vi máu só cúa (4.33) 
không phụ thuộc vào tham só 9. Đẳng thức (4.35) xảy ra nếu chúng ta giả thiết về su độc 
lập giữa các x;. Chú ý rằng giả thiết độc lập thường xuyên được sử dụng. 


Như vậy, điểm khác biệt lớn nhất giữa hai bài toán tối uu MLE và MAP là việc hàm mục 
tiêu của MAP có thêm p(0), tức phân phối của 0. Phân phối này chính là những thông tin 
ta biết trước về Ø và được gọi là prior. Ta kết luận rằng posterior tỉ lệ thuận với tích 
của likelihood và prior. 

Vậy chọn prior thế nào? chúng ta cùng làm quen với một khái niệm mới: conjugate prior. 
4.3.2 Conjugate prior 

Nếu phân phối xác suất posterior p(0|x1,..., xw) có cùng dang (same family) với phan phối 
xác suất p(0), prior và posterior được gọi là conjugate distributions, và p(0) được gọi là 
conjugate prior cho hàm likelihood p(x;,...,xyw|0). Nghiệm của bài toán MAP va MLE có 


cáu trúc gióng nhau. 


Một vài cáp các conjugate distributions! : 


e Nếu likelihood function là một Gaussian (phân phối chuẩn), và prior cho vector kỳ vong 
cüng là mót Gaussian, thé thi phán phói posterior cüng là mót Gaussian. Ta nói ráng 
Gaussian conjugate vói chính nó (hay cón goi là self-conjugate). 

e Nếu likelihood function là một Gaussian và prior cho phương sai là một phân phối gamma?, 
phân phối posterior cũng là một Gaussian. Ta nói rằng phân phối gamma là conjugate 
prior cho phương sai của Gassian. Chú ý rằng phương sai có thể được coi là một biến 
giúp đo độ chính xác của mô hình. Phương sai càng nhó thì độ chính xác càng cao. 


e Phân phối Beta là conjuate của phân phối Bernoulli. 


e Phân phối Dirichlet là conjugate của phân phối categorical. 


4.3.3 Hyperparameters 


Xét một ví dụ nhỏ với phân phối Bernoulli với hàm mật độ xác suất: 


ø(z|A) = A*(1— A)? (4.36) 
và conjugate của nó, phân phối Beta, có hàm phân mật độ xác suất: 
i-e) a -1 
Fe ee oan uu MP 4.37 
a) = nn (4.37) 


Bỏ qua thừa số hằng số chỉ mang mục đích chuẩn hoá cho tích phân của ham mật độ xác suất 
bằng một, ta có thể nhận thấy rằng phần còn lại của phân phối Beta có cùng ho (family) 


1 Đọc thêm: Conjugate prior- Wikipedia (https: // goo.gl/ E2SHbD). 
2 Gamma distribution- Wikipedia, (https:// goo.gl/ kdWd2R.) 
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với phân phối Bernoulli. Cu thể, nếu sử dụng phân phối Beta làm prior cho tham só A, và 
bỏ qua phần thừa số hằng số, posterior sẽ có dạng 


p(Alz) x p(z|A)p(4) 
a o ng (4.38) 


trong đó, « là ký hiệu của ti lệ vói. 
Nhận thấy rằng (4.38) ván có dang của một phân phối Bernoulli. Chính vì vậy mà phần 


phối Beta được gọi là một conjugate prior cho phân phối Bernoulli. 


Trong ví dụ này, tham só A phụ thuộc vào hai tham số khác lá a và 8. Dé tránh nhầm lẫn, 
hai tham só (a, 8) được goi là siêu tham só (hyperparameters). 


Quay trở lại ví dụ vé bài toán tung đồng xu N làn có n lần nhận được mặt head và m = N—n 
lần nhận được mặt tail. Nếu sử dụng MLE, ta nhận được ước lượng À = n/M. Nếu sử dung 
MAP với prior là một Betaja, 8] thì kết quả sẽ thay đổi thé nào? 


Bài toán tối ưu MAP: 


A= arema [p(z1;,... TNIAJD(A)] 


NS ean (I A - y) ae y= 


A 


= argmax [AE NES um 
A 


= argmax A =A] (4.39) 
A 


Bài toán tối ưu (4.39) chính là bài toán tối ưu (4.38) với tham só thay đổi một chút. Tương 
tự như (4.38), nghiệm của (4.39) có thể được suy ra là 
2 n+a-li 
— N+a+B-2 


(4.40) 


Nhờ việc chọn prior phù hợp, ở đây là conjugate prior, posterior và likelihood có dạng giống 
nhau, khiến cho việc tối ưu bài toán MAP được thuận lợi. 


Việc còn lại là chon cáp hyperparameters a và D. 


Chúng ta cùng xem lai hinh dạng của phân phối Beta và nhận thấy rằng khi a = 6 > 1, 
hàm mật độ xác suất của phân phối Beta đối xứng qua điểm 0.5 và đạt giá trị cao nhất tại 
0.5. Xét Hình 4.1, ta nhận thấy rằng khi a = 8 > 1, mật độ xác suất xung quanh điểm 0.5 
nhận giá trị cao, điều này chứng tỏ À có xu hướng gần với 0.5. 


Nếu ta chọn œ = đ = 1, ta nhận được phân phối đều vì đồ thị hàm mật độ xác suất là một 
đường thang. Lúc này, xác suất của A tại moi vị trí trong khoảng (0, 1] là như nhau. Thực 
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Hinh 4.1: Dó thi hám mát dó xác 
suất của phân phối Beta khi a = $5 
và nhận các giá trị khác nhau. Khi 
cả hai giá trị này lớn, xác suất để A 
gần 0.5 sẽ cao hơn. 


chất, nếu ta thay a = Ø = 1 vào (4.40) ta sẽ thu được A = n/N, đây chính là ước lượng thu 
được bằng MLE. MLE là một trường hợp đặc biệt của MAP khi prior là một phân phối đều. 


2 1 2 
Nêu ta chon œ — 6 = 2, ta sẽ thu được: A = E Chàng han khi N — 5,n — 1 nhu trong 
ví du. MLE cho kết quà A = 1/5, MAP sẽ cho kết quả A = 2/7, gần với 1/2 hon. 
Nếu chon a = 6 = 10 ta sẽ có A = (14- 9)/(5 + 18) = 10/23. Ta thấy rằng khi a = 8 và 


càng lón thi ta sé thu dugc A càng gàn 1/2. Dién này có thé dé nhán tháy vi prior nhàn giá 
trị rất cao tại 0.5 khi các siêu tham só a = 8 lớn. 


4.3.4 MAP giúp tránh overfitting 


Việc chọn các hyperparameter thường được dua trên thực nghiệm, cháng han bằng cross- 
validation. Việc thử nhiều bộ tham số rồi chọn ra bộ tốt nhất là việc mà các kỹ sư machine 
learning thường xuyên phải đối mặt. Cũng giống như việc chọn regularization parameter để 
tránh overfitting vậy. 


Nếu viết lại bài toán MAP dưới dạng: 


0 = argmax p( X|0)p(0) (4.41) 
0 
= argmax | log p(X|0) + log p(0) (4.42) 
` likelihood i 
1Kelinoo prior 
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ta có thể thấy rằng hàm mục tiêu có dạng £(0) -- AR(0) giống nhu trong regularization, với 
ham log-likelihood đóng vai trò nhu hàm mát mát (0), và log của prior đóng vai trò nhu 
hàm R(0). Ta có thể nói rằng, MAP chính là một phương pháp giúp tránh overfitting trong 
các mô hình machine learning thống kê. MAP đặc biệt hữu ích khi tập huấn luyện là nhỏ. 


4.4 Tóm tắt 


e Khi sử dụng các mô hình thống ké machine learning, chúng ta thường xuyên phải ước 
lượng các tham số của mô hình 9, đại diện cho các tham số của các phân phối xác suất. 
Có hai phương pháp phổ biến được sử dung để ước lượng 0 là Maximum Likelihood 
Estimation (MLE) và Maximum A Posterior Estimation (MAP). 


e Với MLE, việc xác định tham só Ø được thực hiện bằng cách đi tìm các tham só sao cho 
xác suất của tập huấn luyện, hay còn gọi là likelihood, là lớn nhất: 


0 = argmax p(x;,..., Xx|Ø) (4.43) 
0 


e Dé giải bài toán tối ưu này, giả thiết các dữ liệu x; độc lập thường được sử dụng. Và bài 


toán MLP trở thành: " 


fies T 4.44 
argmax | [ p(x |0) (4.44) 


i=1 


e Với MAP, các tham só được đánh giá bằng cách tối da posterior: 


0 = argmax p(0|x1, ... , XA) (4.45) 
0 


e Quy tắc Bayes và giả thiết về sự độc lập của dữ liệu thường được sử dụng: 
N 
0 = argmax II sesion) (4.46) 
0 ici 
Hàm muc tiéu ó dày chính là tích cüa likelihood và prior. 


e Prior thường được chọn dua trên các thông tin biết trước của tham só, và phân phối 
được chọn thường là các conjugate distribution với likelihood, tức các phân phối khiến 
việc nhân thêm prior vẫn giữ được cấu trúc giống như likelihood. 


e MAP có thể được coi là một phương pháp giúp tránh overfitting. MAP thường mang lại 
hiệu quả cao hơn MLE với trường hợp có ít dí liệu huấn luyện. 
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Tóng quan vé machine learning 


Chương 5 


Các khái niệm cơ bản 


Nội dung của chương này được tham khảo chủ yếu từ Mục 5.1 trong cuốn sách Deep learning 
(Goodfellow, 2016). 


Một thuật toán machine learning là một thuật toán có khả năng học tập từ dữ liệu. Vậy thực 
sự học tập 6 đây có nghĩa như thé nào? Theo Mitchell trong cuốn Machine Learning [M * 97], 
Mục 1.1, thì “A computer program is said to learn from experience E with respect to some 
tasks T and performance measure P, if its performance at tasks in T, as measured by P, 
improves with experience E." 


'Tam dich: 


Dinh nghĩa 5.1: Hoc (chương trinh máy tính) 


Một chương trình máy tính được goi là học từ kinh nghiệm E để hoàn thành nhiệm 


vu T, với hiệu quả được đo bằng phép đánh giá P, nếu hiệu quả của nó khi thực hiện 
nhiệm vụ T, khi được đánh giá bởi P, cài thiện theo kinh nghiệm £F. 


Trong chương này, chúng ta sé đi vào từng khái niệm task, performance measure, vá experience 
thông qua các ví dụ. 


5.1 Nhiệm vu, T 


Các nhiệm vu trong machine learning thường được mó tá thông qua việc một hệ thống 
machine learning xử lý một điểm đỡ liệu (data point) như thé nào. Trong bài toán phân loại 
ảnh, mỗi ảnh là một điểm dữ liệu. Trong bài toán phân nhóm khách hàng, mỗi khách hàng 
là một điểm dữ liệu. Trong bài toán xác định một tin nhắn có là rác hay không, mỗi tin 
nhắn là một điểm dữ liệu. Mỗi điểm dữ liệu bao gồm nhiều đặc trung (feature) khác nhau, 
mỗi feature thường được biểu diễn dưới dạng một con số. Chúng ta thường biểu diễn một 
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điểm dữ liệu như một vector! x € R? trong đó mỗi phần tử z; là một đặc trung, vector này 
thường được gọi là vector đặc trưng (feature vector). Ví dụ, trong một bức ảnh, mỗi giá tri 
của một điểm ảnh có thể coi là một đặc trưng, vector chứa toàn bộ giá trị các pixel của ảnh 
có thể coi là một vector đặc trưng. Chương 6 sẽ bàn sâu thêm về vector đặc trưng của dữ 
liệu. 


Rất nhiều nhiệm vu phức tạp có thể được giải quyết bằng machine learning. Dưới đây là 
một trong những bài toán phổ biến nhất của machine learning. 


5.1.1 Classification 


Classification, hay phân loại, phân lớp. Day là một trong những bài toán được nghiên cứu 
nhiều nhất trong machine learning. Trong bài toán này, chương trình sẽ được yêu cầu chỉ ra 
nhãn, hay lớp (label) của một điểm dữ liệu. Nhãn này thường là một phần tử trong một tập 
hợp có C phần tử khác nhau. Mỗi phần tử trong tập hợp này được goi là một lớp (class), và 
thường được đánh só từ 1 đến C. Để giải bài toán này, ta thường phải xây dựng một hàm 
số f : R? 2 {1,2,...,C}. Khi y = f(x), mô hình gán cho một điểm dữ liệu được mô tả bởi 
vector đặc trưng x một nhãn được xác định bởi só y. 


Ví dụ: trong nhận dạng chữ số viết tay, ta có ảnh của hàng nghìn ví dụ của mỗi chữ số 
được viết bởi nhiều người khác nhau. Các bức ảnh này cùng với nhãn của chúng được đưa 
vào một thuật toán machine learning. Sau khi thuật toán này học được một mô hình, tức 
một hàm số mà đầu vào là một bức ảnh và đầu ra là một chữ số, khi nhận được một bức 
ảnh mới mà mô hình chưa nhìn thấy bao giờ, nó sẽ dự đoán bức ảnh đó chứa chữ số nào. 
Ví dụ này khá giống với cách học của con người khi còn nhỏ. Ta đưa bảng chữ cái cho một 
đứa trẻ và chỉ cho chúng đây là chữ A, đây là chữ B. Sau một vài lần được dạy thì trẻ có 
thể nhận biết được đâu là chữ A, đâu là chữ B mà chúng chưa nhìn thấy bao giờ. 


Có một biến thể nhỏ ở đầu ra của hàm số ƒ(x) khi đầu ra không phải là một số mà là một 
vector y € RC trong đó y, chỉ ra xác suất để điểm dữ liệu x rơi vào lớp thứ c. Lớp được 
chọn cuối cùng là lớp có xác suất rơi vào là cao nhất. Việc sử dụng xác suất này đôi khi rất 
quan trọng, nó giúp chỉ ra độ chắc chán (confidence) của mô hình. Nếu xác suất cao nhất 
là cao hơn nhiều so với các xác suất còn lại, ta nói mô hình có độ chắn chắn là cao khi phân 
lớp điểm dữ liệu x. Ngược lại, nếu độ chênh lệch giữa xác suất cao nhất và các xác suất tiếp 
theo là nhỏ, thì khả năng mô hình đã phân loại nhầm là cao hơn. 


5.1.2 Regression 


Nếu nhãn không được chia thành các nhóm mà là các giá trị thực (có thể vô hạn) thì bài 
toán được goi là hổi quy, một só tài liệu gọi là tiên lượng (regression). Trong bài toán này, 
ta cần xây dựng một hàm số f : R! > R. 


Có những loai dữ liệu không được biểu diễn dưới dạng một vector mà có thể là một ma trận-khi giữ nguyên một 
bức ảnh trong không gian hai chiều, hoặc một tensor-máng nhiều chiều-khi xem các bức ảnh với nhiều channel 
khác nhau. Trong cuốn sách này, chúng ta chỉ xét các điểm dữ liệu dưới dang vector, hoặc vector hoá (vectorization) 
các điểm dữ liệu nhiều chiều. 
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Ví du 1: Ước lượng một căn nhà rộng x m?, có y phóng ngủ và cách trung tâm thành phó 
z km sẽ có giá khoảng bao nhiêu? 


Ví dụ 2: Microsoft có một ứng dụng dự đoán giới tính và tuổi dựa trên khuôn mặt (http: 
//how-old.net/). Phần dự đoán giới tính có thể được coi là một thuật toán classification, 
phần dự đoán tuổi có thể coi là một thuật toán regression. Chú ý rằng phần dự đoán tuổi 
cũng có thể coi là classification nếu ta coi tuổi là một số nguyên dương không lớn hơn 150, 
chúng ta sẽ có 150 class (lớp) khác nhau. 


Bài toán regression có thể mở rộng ra việc dự đoán nhiều đầu ra cùng một lúc, khi đó, hàm 
cần tim sẽ là f : R^ > R”. Một ví du là bài toán single image super resolution, 6 đó, hệ 
thống cần tạo ra một bức ảnh có độ phân giải cao dựa trên một ảnh có độ phân giải thấp 
hơn. Khi đó, việc dự đoán giá trị của các pixel trong ảnh đầu ra là một bài toán regression 
với nhiều đầu ra. 


5.1.3 Machine translation 


Trong bài toán này, đầu vào là một câu, đoạn, hay bài văn trong một ngôn ngữ, và chương 
trình máy tính được yêu cầu chuyển đổi nó sang một ngôn ngữ khác. Lời giải cho bài toán 
này gần đây đã có nhiều bước phát triển vượt bậc dựa trên các thuật toán deep learning. 


5.1.4 Clustering 


Clustering là bài toán phán nhóm toàn bộ dí liệu Y thành các nhóm nhỏ dựa trên sự liên 
quan giữa các dü liệu trong mỗi nhóm. 


Vi dụ: phân nhóm khách hàng dựa trên hành vi mua hàng. Dièu này cũng giống như việc 
ta đưa cho một đứa trẻ rất nhiều mảnh ghép với các hình thù và màu sắc khác nhau, ví dụ 
tam giác, vuông, tròn với màu xanh và đỏ, sau đó yêu cầu trẻ phân chúng thành từng nhóm. 
Mặc dù không cho trẻ biết mảnh nào tương ứng với hình nào hoặc màu nào, nhiều khả năng 
chúng vẫn có thể phân loại các mảnh ghép theo màu hoặc hình dạng. 


5.1.5 Completion 


Completion là bài toán điền những giá trị còn thiếu của một điểm dữ liệu. Trong nhiều bài 
toán thực tế, việc thu thập toàn bộ thông tin của một điểm dữ liệu, ví dụ khách hàng, là 
không khả thi. Nhiệm vụ của bài toán này là dựa trên mối tương quan giữa các điểm dữ liệu 
để dự đoán những giá trị còn thiếu. Các hệ thống khuyến nghi (recommendation system) là 
một ví dụ điển hình của loại này. 


Ban đọc có thể đọc thêm về các bài toán zếp hạng (ranking), thu thập thông tin (information 
retrieval), giảm nhiễu (denoising), v.v.. 


Machine Learning cơ bản https: // machinelearningcoban. com 


67 CHUONG 5. CÁC KHÁI NIÉM CO BÁN 


5.2 Phép đánh giá, P 


Để kiểm tra năng lực của một thuật toán machine learning, chúng ta cần phải thiết kế các 
phép đánh giá có thể đo đạc được kết quả. 


Thông thường, khi thực hiện một thuật toán machine learning, dữ liệu sẽ được chia thành 
hai phần riêng biệt: tâp huấn luyện (training set) và tập kiểm thử (test set). Tập huấn luyện 
sẽ được dùng để tìm các tham số mô hình. Tập kiểm thử được dùng để đánh giá năng lực 
của mô hình tìm được. Có một điểm cần lưu ý rằng khi tìm các tham số mô hình, ta chỉ 
được dùng các thông tin trong tập huấn luyện. Việc đánh giá có thể được áp dụng lên cả 
hai tập hợp. Muốn mô hình thực hiện tốt trên tập kiểm thử thì nó trước hết phải hoạt động 
tốt trên tập huấn luyện. 


Lưu ý: Ranh giới giữa tập huấn luyện và tập kiểm thử đôi khi không rõ ràng. Các thuật 
toán thực tế liên tục được cập nhật dựa trên dữ liệu mới thêm vào, các thuật toán này được 
gọi là online learning hoặc online training. Phần dữ liệu mới này ban đầu không được hệ 
thống sử dụng để xây dựng mô hình, nhưng về sau có thể được mô hình sử dụng để cải 
tiến. Ngược với online learning là offline learning, ö đó hệ thông xây dựng mô hình một lần 
dựa trên một tập chính là tập huấn luyện. Các điểm dữ liệu không được dùng trong quá 
trình xây dựng hệ thống được coi là tập kiểm thử. Trong cuốn sách này, khi không đề cập 
gi thêm, các thuật toán được ngầm hiểu là offline learning, trong đó training set là tập hợp 
được dùng để xây dựng mô hình ban đầu, test set là tập hợp được dùng để đánh giá hiệu 
quả của mô hình được xây dựng đó. 


5.3 Kinh nghiệm, E 


Việc huấn luyện các mô hinh machine learning có thé coi là việc cho chúng trái nghiệm trên 
các tập đữ liệu (dataset)-chính là training set. Các tập dữ liệu khác nhau sẽ cho các mó 
hình các trải nghiệm khác nhau. Chất lượng của các tập dữ liệu này cũng ảnh hưởng tới 
hiệu năng của mô hình. 


Dựa trên tính chất của các tập dit liệu, các thuật toán machine learning có thể phân loại 
thành hai nhóm chính là học không giám sát (unsupervised learning) và hoc có giám sát 
(supervised learning). 


Supervised learning là thuật toán dự đoán đầu ra của một hoặc nhiều dí liệu mới dựa 
trên các cặp (đầu vào, đầu ra) đã biết từ trước. Supervised learning là nhóm phổ biến nhất 
trong các thuật toán machine learning. 


Một cách toán học, supervised learning là khi chúng ra có một tập hợp biến đầu vào Y = 
[x1,X2,..., xy] và một tập hợp đầu ra tương ứng Y = [y1,yo,..., yw}, trong đó x;, y; là 
các vector. Các cáp dữ liệu biết trước (x;, y;i) €  x Y tạo nên tập huấn luyện. Từ tập huấn 
luyện này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập sang một phần tử 
(xấp xi) tương ứng của tập Y: 


y, & f (xi), WO 1 EI 
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Mục đích là xáp xỉ hàm só ƒ thật tốt dé khi có một dữ liệu x mới, chúng ta có thể tính được 
nhãn tương ứng của nó y = ƒ(%). 


Ngược lại, trong unsupervised learning, chúng ta không biết được kết quả đầu ra mà chỉ 
biết các vector đặc trưng của dữ liệu đầu vào. Các thuật toán unsupervised learning sẽ dựa 
vào câu trúc của dữ liệu dé thực hiện một công việc nào đó, ví du như phân nhóm hoặc giám 
só chiéu của dit liệu (dimentionality reduction). Một cách toán học, unsupervised learning 
là khi chúng ta chỉ có dữ liệu đầu vào Y mà không biết đầu ra VY tuong ứng. 


Không giống như trong supervised learning, chúng ta không biết câu trả lời chính xác cho 
mỗi dữ liệu đầu vào trong unsupervised learning. Giống như khi ta học, ta chỉ được đưa cho 
một chữ cái mà không nói đó là chữ A hay chữ B. Cum từ không giám sát, hay không ai chỉ 
bảo (unsupervised) được đặt tên theo nghĩa này. 


Từ góc độ xác suất thống kê, unsupervised learning trải nghiệm qua rất nhiều ví dụ (các 
điểm dữ liệu) x và có gắng học phân phối xác suất p(x), hoặc các tính chất của phân phối 
của dữ liệu một cách trực tiếp hoặc gián tiếp. Trong khi đó, supervised learning quan sát các 
ví dụ x và các kết quả tương ứng y, sau đó cố gắng học cách dự đoán y từ x thông qua việc 
đánh giá xác suất có điều kiện p(y|x). Xác suất này có thể diễn đạt bằng lời là biết rằng 
một điểm dữ liệu có vector đặc trưng là x, xác suất để đầu ra của nó bằng y là bao nhiêu. 


Ranh giới giữa unsupervised learning và supervised learning đôi khi là không rõ ràng. Thông 
thường, người ta thường coi các bài classification, regression là supervised learning, các bài 
clustering hay density estimation (ước lượng một phân phối) là unsupervised learning. 


Có những bài toán mà dữ liệu được dùng để huấn luyện bao gồm cả những dữ liệu có nhãn 
và chưa được gán nhãn. Các bài toán khi chúng ta có một lượng lớn dữ liệu Y nhưng chỉ 
một phần trong chúng được gán nhãn được gọi là học bán giám sát, hay semi-supervised 
learning. Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên. 


Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn 
(ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính trị) và phần lớn các 
bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet. Thực tế cho thấy rất 
nhiều các bài toán machine learning thuộc vào nhóm này vì việc thu thập dí liệu có nhãn 
tốn rất nhiều thời gian và có chi phí cao. Rất nhiều loại dữ liệu, ví dụ như ảnh y học, thậm 
chí cần phải có chuyên gia mới gán nhãn được. Ngược lại, dữ liệu chưa có nhãn có thể được 
thu thập với chi phí thấp từ internet. 


Có những thuật toán machine learning không luôn trải nghiệm trên một tập dữ liệu có định. 
Ví dụ, học cửng cố (reinforcement learning) trải nghiệm trực tiếp với môi trường xun 
quanh, liên tục nhận phản hồi từ môi trường để tự cải thiện hành vi của hệ thống trong các 
môi trường mới. Các ví dụ điển hình của reinforcement learning là việc huấn luyện cho xe tự 
lái dựa vào ảnh nhận từ camera và điều khiển tay lái cũng như tốc độc của xe. Reinforcement 
learning hiện nay chủ yếu được áp dụng vào các trò chơi, khi mà máy tính có thể mô phỏng 
được các trạng thái của môi trường và huấn luyện thuật toán thông qua rất nhiều vòng lặp. 
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Ví du 1: AlphaGo gần đây nổi tiếng với việc chơi cờ vây thắng cả con người (https: // goo. 
gl/ PzKcvP). Cà vây được xem là có độ phức tap cuc ky cao? với tổng số nước di là xấp 
xi 10% so với cờ vua là 1012 và tổng số nguyên tử trong toàn vũ tru là khoảng 10°°!! Hệ 
thống phải chọn ra một đường di nước bước tối uu trong số hàng nhiều tỉ tỉ lựa chọn, và 
tất nhiên, việc thử tất cả các lựa chọn là không khả thi. Về cơ bản, AlphaGo bao gồm các 
thuật toán thuộc cả supervised learning và reinforcement learning. Trong phần supervised 
learning, dữ liệu từ các vấn cờ do con người chơi với nhau được đưa vào để huấn luyện. Tuy 
nhiên, mục đích cuối cùng của AlphaGo không phải là chơi như con người mà phải thậm 
chí thắng cả con người. Vì vậy, sau khi học xong các ván cờ của con người, AlphaGo tự chơi 
với chính nó với hàng triệu ván chơi để tìm ra các nước đi mới tối ưu hơn. Thuật toán trong 
phần tự chơi này được xếp vào loại reinforcement learning. 


Gần đây, Google DeepMind đã tiến thêm một bước đáng kể với AlphaGo Zero. Hệ thống 
này thậm chí không cần học từ các ván cờ của con người. Nó có thể tự chơi với chính mình 
để tìm ra các chiến thuật tối ưu. Sau 40 ngày được huấn luyện, nó đã thắng tất cả các con 
người và hệ thống khác, bao gồm AlphaGo?. 


Ví dụ 2: Huấn luyện cho máy tính chơi game Mario*. Đây là một chương trình thú vị day 
máy tính chơi game Mario. Game này đơn giản hơn cờ vây vì tại một thời điểm, người chơi 
chỉ phải bam một số lượng nhỏ các nút (di chuyển, nhảy, bán đạn) hoặc không cần bam nút 
nào. Đồng thời, phản ứng của máy cũng đơn giản hơn và lặp lại ở mỗi lần chơi (tại thời 
điểm cụ thể sẽ xuất hiện một chướng ngại vật có định ở một vị trí có định). Đầu vào của 
thuật toán là sơ đồ của màn hình tại thời điểm hiện tại, nhiệm vụ của thuật toán là với đầu 
vào đó, tổ hợp phím nào nên được bấm. Việc huấn luyện này được dựa trên điểm số cho 
việc di chuyển được bao xa trong thời gian bao lâu trong game, càng xa và càng nhanh thì 
được điểm thưởng càng cao (điểm thưởng này không phải là điểm của trò chơi mà là điểm 
do chính người lập trình tạo ra). Thông qua huấn luyện, thuật toán sẽ tìm ra một cách tối 
đa số điểm trên, qua đó đạt được mục đích cuối cùng là cứu công chúa. 


Reinforcement learning là một lĩnh vực thú vị trong machine learning. Rất tiếc, reinforcement 
learning nằm ngoài phạm vi của cuốn sách này. 


5.4 Hàm mát mát và tham số mô hình 


Mỗi mô hình machine learning được mô tả bởi các tham số mô hành (model parameters). 
Công việc của một thuật toán machine learning là đi tìm các tham số mô hình phù hợp với 
mỗi bài toán. Việc đi tìm các tham số mô hình có liên quan mật thiết đến các phép đánh 
giá. Mục đích của chúng ta là đi tìm các tham số mô hình sao cho các phép đánh giá cho 
kết quả tốt nhất. Trong bài toán classification, kết quả tốt có thể được hiểu là ít điểm dữ 
liệu bị phân lớp sai nhất. Trong bài toán regression, kết quả tốt là khi sự sai lệch giữa đầu 
ra dự đoán và đầu ra thực sự là ít nhất. 


2 Google DeepMind's AlphaGo: How it works (https:// goo.gl/ nDNcCy). 
3 AlphaGo Zero: Learning from scratch (https: // goo.gl/ xtDjoF ). 
^ Marl/O - Machine Learning for Video Games (https:// goo.gl/ QekkRz) 
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Quan hệ giữa một phép đánh giá và các tham só mó hình thường được mó tá thông qua 
một hàm số được gọi là hàm mát mát (loss function, hay cost function). Hàm mát mát này 
thường có giá trị nhỏ khi phép đánh giá cho kết quả tốt và ngược lại. Việc đi tìm các tham 
số mô hình sao cho phép đánh giá trả về kết quả tốt tương đương với việc tối thiểu hàm 
mất mát. Như vậy, việc xây dựng một mô hình machine learning chính là việc đi giải một 
bài toán tối ưu. Quá trình đó có thể được coi là quá trình learning của machine. 


Tập hợp các tham số mô hình thường được ký hiệu bằng 0, hàm mất mát của mô hình 
thường được ký hiệu là L(0) hoặc J(0). Bài toán tối thiểu hàm mát mát dé tìm tham só mô 
hình thường được viết dưới dạng: 


0” = argmin £(0) (5.1) 
0 


ký hiệu argmin £(Ø) được hiểu là giá trị của Ø để hàm số L(0) dat giá trị nhỏ nhất. Khi sử 
0 


dụng argmin, chúng ta phải chỉ rõ nó được thực hiện theo các bién số nào bằng cách ghi các 
biến số ở dưới min (ở đây lá 0). Nếu hàm só chỉ có một bién số, ta có thể bỏ qua biến số đó 
dưới min. Tuy nhiên, bién số nên được ghi rõ ràng để giảm thiểu sự nhầm lẫn. argmax cũng 
được sử dụng một cách tương tự khi ta cần tìm giá trị của các biến số để một hàm số đạt 
giá trị lớn nhất. 


Một hàm số L(A) bát kỳ có thé có rất nhiều giá trị của 0 dé nó đạt giá trị nhỏ nhất, hoặc 
cũng có thé nó không chặn dưới. Thậm chí, việc tìm giá trị nhỏ nhất của một hàm số đôi 
khi là không khả thi. Trong machine learning cũng như nhiều bài toán tối ưu thực tế, việc 
chỉ cần tìm ra một bộ tham số Ø làm cho hàm mất mát đạt giá trị nhỏ nhất, hoặc thậm chí 
đạt một giá trị cực tiểu”, thường mang lại các kết quả khả quan. 


Để hiểu rõ bản chất của các thuật toán machine learning, việc nắm vững các kỹ thuật tối 
ưu cơ bản là rất quan trọng. Cuốn sách này có nhiều chương cung cấp các kiến thức cần 
thiết cho tối ưu, bao gồm tối uu không ràng buộc (Chương 12) và tối ưu có ràng buộc (xem 
Phần VII). 


Trong các chương tiếp theo của cuốn sách này, chúng ta sẽ dần làm quen với các thành phần 
cơ bản của một hệ thống machine learning. 


5 Lưu ý rằng cực tiểu trong toán học không có nghĩa là nhỏ nhất. 
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Chương 6 


Giới thiệu vé feature engineering 


6.1 Giới thiệu 


Mỗi điểm dit liệu trong các bài toán machine learning thường được biểu diễn bằng một vector 
được goi là vector đặc trung (feature vector)’. Hơn nữa, trong cùng một bài toán, các feature 
vector của tất cả các điểm thường có kích thước như nhau. Điều này là cần thiết vì các phép 
toán trong mô hình (cộng, nhân ma trận, vector) yêu cầu đầu vào có cùng kích thước. Khi 
đó, toàn bó dữ liệu có thé được lưu trong một ma trận mà mỗi hàng hoặc mỗi cột là feature 
vector của một điểm dữ lieu. Tuy nhiên, trên thực tế, dữ liệu thường ở dạng thô (raw data) 
vói kích thuóc khác nhau. Hoác thàm chí khi kích thuóc cüa các diém là nhu nhau, viéc lua 
chon, tính toán dác trung nào phü hop cho mói bài toán là nhiém vu quan trong truóc tién 
càn dugc giái quyét. 


Vói các bài toán thi giác máy tính (computer vision), các búc ánh thuóng là các ma tràn 
hoác tensor vói kích thuóc khác nhau. Trong bài toán nhàn dang vát thé trong ành, dói khi 
ta cần làm thêm một bước nữa là zác định vi trí vát thé (object detection), tức là tìm các 
khung chúa vát thé càn du doán. Ví du, trong bài toán nhàn dang khuón mát, ta cán tim 
được vi trí các khuôn mặt trong ảnh và cát ra các khuôn mặt đó trước khi làm các bước 
tiép theo. Ngay cá khi dà xác dinh dugc các khung chúa các khuón mát, ta ván phái làm 
rất nhiều việc vi hình ảnh của khuôn mặt còn phu thuộc vào góc chup, ánh sáng, v.v. và rất 
nhiều yếu tố khác nữa. 


Các bài toán zử ly ngôn ngữ tự nhiên (natural language processing-NLP) cũng có khó khăn 
tương tự khi độ dài của các văn bản là khác nhau, thậm chí có những từ rất hiếm gặp hoặc 
không có trong từ điển. Cũng có khi thêm một vài từ vào văn bản mà nội dung của văn bản 
không đổi hoặc hoàn toàn mang nghĩa ngược lại. Hoặc cùng là một câu nói nhưng tốc độ, 
âm giọng của mỗi người là khác nhau, tại các thời điểm khác nhau là khác nhau. 


! Trong các hệ thống deep learning, một bức ảnh hai chiều có thể được trực tiếp đưa vào hệ thống mà không cần 
qua nhiều bước feature engineering. Cuốn sách này chỉ làm việc với các đặc trưng ở dạng vector cột. 


CHƯƠNG 6. GIÓI THIỆU VỀ FEATURE ENGINEERING T2 


Khi làm việc với các bài toán machine learning thực tế, nhìn chung chúng ta chỉ có được 
dữ liệu thô chưa qua chỉnh sửa, chọn lọc. Ngoài ra, chúng ta có thể phải tìm cách loại ra 
những dữ liệu nhiễu, và để đưa dữ liệu thô với kích thước, hay số chiều khác nhau về cùng 
một chuẩn (cùng là các vector hoặc ma trận). Dữ liệu chuẩn mới này phải đảm bảo giữ được 
những thông tin đặc trưng cho dữ liệu thô ban đầu. Không những thế, tùy vào từng bài 
toán, ta cần thiết kế những phép biến đổi để có những đặc trưng phù hợp. Quá trình quan 
trọng này được gọi là trích chọn. đặc trưng (feature engineering hay feature extraction). 


Xin trích một câu nói (xin không dịch) của Andrew Ng?: 


Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied 
machine learning" is basically feature engineering. 


Dé có cái nhìn tổng quan, trong muc tiếp theo, bước feature engineering này sé được đặt 
trong mót büc tranh lón hon. 


6.2 Mó hinh chung cho các bài toán Machine Learning 


Phàn lón các mó hinh machine learning có thé dugc minh hoa trong Hinh 6.1. Có hai buóc 
(phase) lớn trong mỗi bài toán machine learning là bước huấn luyện (training phase) và bước 
kiểm thử (test phase). Bước huấn luyện sé chỉ dùng dữ liệu huấn luyện, bước kiểm thử sé 
chỉ dùng dữ liệu trong tập kiểm thử”. 


6.2.1 Training phase 
Có hai khối có nền màu lục cần được thiết kế: 


Khối thứ nhất, Feature Extraction, có nhiệm vụ tạo ra một vector đặc trưng cho mỗi 
điểm dữ liệu đầu vào. Vector đặc trưng này thường có kích thước như nhau, bất ké dữ liệu 
đầu vào có kích thước như thế nào. 


Đầu vào của khối Feature Extraction có thể là các yếu tố sau: 


e Dữ liệu thô ban đầu (raw training input). Dữ liệu thô bao gồm tất cà các thông tin ta 
biết về dữ liệu. Vi dụ: dit liệu thô của một ảnh là giá trị của từng pixel; của một văn 
bản là từng từ, từng câu; của một file âm thanh là một đoạn tín hiệu; với bài toán dự 
báo thời tiết, dữ liệu thô là thông tin về hướng gió, nhiệt độ, độ ám,v.v.. Dữ liệu thô này 
thường không ở dạng vector và không có số chiều như nhau. Thậm chí có thể có số chiều 
như nhau nhưng số chiều quá lớn, cháng hạn một bức ảnh màu 1000 x 1000 pixel sẽ có 
só pixel là đã là 3 x 108 (ảnh màu thường có ba channel: red, green, blue-RGB). Day là 
một con số quá lớn, không lợi cho lưu trữ và tính toán. 


? Feature Engineering- Wikipedia (https:// goo.gl/ v4e21T) 
3 Trước khi đánh giá một mô hình trên tập kiểm thử, ta cần dám bảo rằng mô hinh đó đã làm việc tốt trên tập 
huấn luyện. 
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TRAINING PHASE 


Prior knowledge 
about data 
Training output 
(Y train) 


Raw training Extracted 
data (input) Feature features 


Classification, 
Extraction (Xerain) 


Regression, 


(Feature Clustering,... 
all | E Engineering) Algorithms 


Raw test Extracted 


data (input) Feature jiu Classification, 
Extraction (Xtest) Regression, 


(Feature Clustering, ... 

= Engineering) Algorithms 

TEST PHASE Test opt 
(Y test) 


Hình 6.1: Mô hình thường gặp trong các bài toán machine learning. 


e output của training set. Trong các bài toán unsupervised learning, ta không biết 
output nên hiển nhiên sẽ không có giá trị này. Trong các bài toán supervised learning, có 
khi dữ liệu này cũng không được sử dụng. Ví dụ, nếu raw input đã có cùng số chiều rồi 
nhưng số chiều quá lớn, ta muốn giảm số chiều của nó thì cách đơn giản nhất là chiếu 
vector đó xuống một không gian có số chiều nhỏ hơn bằng cách lấy một ma trận ngẫu 
nhiên nhân với nó vào bên trái. Ma trận này thường là ma trận béo, tức có số hàng ít 
hơn số cột, để đảm bảo số chiều thu được nhỏ hơn số chiều ban đầu. Việc làm này mặc 
dù làm mất đi thông tin, trong nhiều trường hợp vẫn mang lại hiệu quả vì đã giảm được 
lượng tính toán ở phần sau. Đôi khi ma trận chiếu không phải là ngẫu nhiên mà có thể 
được hoc dựa trên toàn bó dữ liệu thô ban đầu. Trong nhiều trường hợp khác, dí liệu 
output của tập huấn luyện cũng được sử dụng để tạo ra bộ trích chọn đặc trưng. Trong 
bài toán classification, việc giữ lại nhiều thông tin không quan trọng bằng việc giữ lại các 


Machine Learning cơ bản https: // machinelearningcoban.com 


CHUONG 6. GIÓI THIỆU VÉ FEATURE ENGINEERING 74 


thông tin có ích cho bài toán. Ví du, giả sử dữ liệu thô là các hình vuông và hình tam 
giác có màu đỏ và xanh. Trong bài toán phân loại đa giác, nếu các nhãn là tam giác và 
vuông, ta không quan tâm tới màu sắc mà chỉ quan tâm tới số cạnh của da giác. Ngugc 
lại, trong bài toán phân loại màu, các nhãn là zanh và đỏ, ta không quan tâm tới số cạnh 
mà chỉ quan tâm đến màu sắc. 


e Prior knowledge about data: Các thông tin khác đã biết về loại dí liệu (ngoài những 
thông tin về raw input và output). 


Sau khi các tham só mô hình của bộ feature extraction được thiết kế, dí liệu thô ban đầu 
được dua qua va tạo ra các vector đặc trưng tương ứng được goi là extracted feature. Những 
extracted feature này sẽ được đưa vào huấn luyện các thuật toán chính như classification, 
regression, clustering, v.v. trong khối màu lục phía sau. 


Trong môt só thuật toán cao cáp hon, uiệc ray dựng bó trích chọn đặc trưng và các 
thuật toán chính (classification, clustering, v.v.) có thể được thực hiện cùng lúc tới 
nhau thay vi từng bước như trên. Các mô hành đó có tên gọi chung là end-to-end. Với 
sự phát triển của deep learning trong những năm gần đâu, người ta cho rằng các hệ 


thống end-to-end (từ đều đến cuối) mang lại kết quả tốt hơn nhờ vào tiệc hai khối 
phía trên được huấn luyện cùng nhau, bó trợ lẫn nhau cùng hướng tới mục đích cuối 
cùng. Thực tế cho thấu, các phương pháp state-of-the-art (các phương pháp hiệu quả 
nhất) thường là các mó hành end-to-end. 


6.2.2 Testing phase 


Khi có dữ liệu thô mới, ta sử dụng bộ trích chọn đặc trưng dá tim được ở trên để tao ra 
vector đặc trưng ứng với dữ liệu thô đó. Vector đặc trưng này được đưa vào thuật toán chính 
đã tìm được để đưa ra quyết định. 


6.3 Một số ví dụ về Feature Engineering 
6.3.1 Trực tiếp lấy dữ liệu thô 


Xét một bài toán phân loại các bức ảnh xám mà mỗi bức ảnh đã có kích thước cố định là 
m x n pixel. Cách đơn giản nhất để tao ra vector đặc trưng cho bức ánh này là kéo dài ma 
tràn các pixel thành mót vector có mn phàn tit, hay dác trung. Khi dó, giá tri mói dác trung 
sẽ là một giá trị của một pixel trong bức ảnh ban đầu, thứ tu không quan trong. Kỹ thuật 
này còn được gọi là vector hoá (vectorization). 


Việc làm đơn giản này đã làm mất thóng tin vé không gian (spatial information) giữa các 
điểm ảnh vì các pixel gần nhau theo phương ngang trong bức ảnh ban đầu có thể không còn 
gần nhau trong vector đặc trưng mới nữa. Tuy nhiên, trong nhiều trường hợp, kỹ thuật này 
vẫn mang lại kết quả khả quan. 
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6.3.2 Lua chon dác trung 


Giả sử rang các điểm dữ liệu có số đặc trưng khác nhau (do kích thước dữ liệu khác nhau 
hay do một số đặc trưng mà điểm dữ liệu này có nhưng điểm dữ liệu kia lại không thu thập 
được), và số lượng đặc trưng là cực lớn. Chúng ta cần chọn ra một số lượng nhỏ hơn các đặc 
trưng phù hợp với bài toán. 


6.3.3 Giảm chiều dữ liệu 


Một phuong pháp khác thường được dùng là làm giám số chiều dü liệu (dimensionality 
reduction) để giảm bộ nhớ và khối lượng tính toán. Việc giảm số chiều này có thể được 
thực hiện bằng nhiều cách, trong đó chiếu ngẫu nhiên (random projection) là cách đơn gián 
nhất. Trong phương pháp này, một ma trận chiếu (projection matrix) ngẫu nhiên được chọn, 
thường là một ma trận béo-số cột nhiều hơn số hàng, để nhân vào bên trái của từng vector 
đặc trưng ban đầu để được các vector đặc trưng có số chiều thấp hơn. Cụ thể, giả sử vector 
đặc trưng ban đầu là xo € RP, nếu ta chọn một ma trận chiếu P € R%%?P với d < D, vector 
mới x4 = Pxo € R? có số chiều nhỏ hơn số chiều của vector xo ban đầu. 


Việc chọn một ma trận chiếu ngẫu nhiên đôi khi mang lại kết quả tệ không mong muốn vì 
thông tin có thể bị mất đi quá nhiều. Một phương pháp được sử dụng nhiều để tối thiểu lượng 
thông tin mất đi có tên là principal component analysis sé được trình bày trong Chương 21. 


Lưu ý: Feature engineering không nhất thiết phải làm giảm số chiều dữ liệu, đôi khi vector 
đặc trưng có thể có có kích thước lớn hơn dữ liệu thô ban đầu. 


6.3.4 Bag of words 


Chúng ta hàn đã tự đặt ra các câu hỏi: với một văn bản, vector đặc trưng sé có dạng nhu 
thế nào? Làm sao đưa các từ, các câu, đoạn văn ở dạng text trong các văn bản về một vector 
mà mỗi phần tử là một số? 


Có một kỹ thuật rất phổ bién trong xử lý văn bản có tên là túi dung từ (bag of words-BoW ). 


Bắt đầu bằng ví dụ phân loại tin nhắn rác. Ta thấy rằng nếu một tin có chứa các từ khuyến 
mai, giám giá, trúng thưởng, miễn phí, quà tặng, tri ân, v.v., nhiều khả năng đó là một tin 
nhắn rác. Từ đó, phương pháp đầu tiên có thể nghĩ tới là đếm xem trong tin đó có bao nhiêu 
từ thuộc vào các từ trên, nếu số lượng này nhiều hơn một ngưỡng nào đó thì ta quyết định 
đó là tin rác. (Tất nhiên bài toán thực tế phức tạp hơn nhiều khi các từ có thể được viết 
dưới dạng không dấu, hoặc bị cố tình viết sai chính tả, hoặc dùng ngôn ngữ teen). Với các 
loại văn bản khác nhau, lượng từ liên quan tới từng chủ đề cũng khác nhau. Từ đó có thể 
dựa vào số lượng các từ trong từng loại để tạo các vector đặc trưng cho từng văn bản. 
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Xin lấy một ví dụ về hai văn ban đơn giản sau đây: 


(1) "John likes to watch movies. Mary likes movies too." 


` 


Và, 


(2) "John also likes to watch football games." 


Dựa trên hai văn bản này, ta có danh sách các từ được sử dụng, được gọi là từ điển (dictionary 
hoặc codebook) với mười từ như sau: 


["John", "likes", "to", "watch", "movies", "also", "football", "games", "Mary", "too"] 
g 


Vói mói ván bàn, ta sé tao ra mót vector dác trung có só chióu báng 10, mói phán tú dai 
diện cho só từ tuong ứng xuất hiện trong văn bản đó. Với hai văn bản trên, ta sẽ có hai 
vector đặc trưng 


Văn bản (1) có 1 từ "John", 2 từ "likes", 0 từ "also", 0 từ "football", v.v. nên ta thu được 
vector tương ứng như trên. 


Có một vài điều cần lưu ý trong BoW: 


e Với những ứng dụng thực tế, tw điển có nhiều hon mười từ rất nhiều, có thể đến cả triệu, 
như vậy vector đặc trưng thu được sẽ rất dài. Một văn bản chỉ có một câu, và một tiểu 
thuyết nghìn trang đều được biểu diễn bằng các vector có kích thước như nhau. 


e Có rất nhiều từ trong từ điển không xuất hiện trong một văn bản. Như vậy các vector 
đặc trưng thu được thường có rất nhiều phần tử bằng không. Các vector có nhiều phần 
tử bằng không được goi là vector thưa (sparse vector). Dé việc lưu trữ được hiệu quả hơn, 
ta không lưu cả vector đó mà chỉ lưu vi trí của các phan tử khác 0 va giá tri tương ứng. 
Chú ý rằng nếu có hơn một nửa số phần tử khác không, việc làm này lại phản tác dụng. 
Tuy nhiên, trường hợp này ít xảy ra vì hiếm có văn bản nào lại chứa tới một nửa từ điển. 


e Ta xử lý các từ hiếm gặp không nằm trong từ điển như thế nào? Một kỹ thuật thường 
được dùng là thêm phần tử <Unknown> vào trong từ điển. Mọi từ không có trong từ điển 
đều được coi là <Unknown>. Lúc này, kích thước của vector đặc trưng sẽ tăng lên một. 


e Tuy nhiên, những từ hiếm đôi khi lại mang những thông tin quan trọng nhất mà chỉ loại 
văn bản đó có. Đây là một nhược điểm của BoW. Có một phương pháp cải tiến giúp 


^ Bag of words- Wikipedia. (hftps://goo.gl/rBtZ4x) 
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khắc phục nhược điểm này có tên lá term frequency-inverse document frequency (TF- 
IDF) [SWY75] dùng để xác định tầm quan trọng của một từ trong một văn bản dựa trên 
toàn bộ văn bản trong cơ sở đữ liệu”. 


e Nhược điểm lớn nhất của BoW là nó không mang thông tin về thứ tự của các từ, cũng 
như sự liên kết giữa các câu, các đoạn văn trong văn bản. Thứ tự của các từ trong văn 
bản thường mang thông tin quan trong. Ví du, ba câu sau đây: “Em yêu anh khóng?", 
“Em không yêu anh”, và “Không, (nhưng) anh yêu em” khi được trích chọn đặc trưng 
bằng BoW sé cho ra ba vector giống hệt nhau, mặc dù ý nghĩa khác hàn nhau. 


6.3.5 Bag of words trong computer vision 


Bag of words cũng được áp dụng trong computer vision cho các bức ảnh với cách định nghĩa 
từ và từ điển khác. Xét các ví dụ sau: 


Ví dụ 1: Có hai class ảnh, một class là ảnh các khu rừng, một class là ảnh các sa mạc. Già 
sử ta biết rằng một bức ảnh chỉ thuộc một trong hai loại này, việc phân loại một bức ảnh 
là rừng hay sa mạc một cách trực quan nhất là dựa vào màu sắc. Màu xanh lục nhiều thì 
là rừng, màu đỏ và vàng nhiều thì là sa mạc. Vậy chúng ta có thể có một mô hình đơn giản 
để trích chọn đặc trưng như sau: 


e Với một bức ảnh, chuẩn bị một vector x có số chiều bằng 3, đại diện cho ba màu xanh 
lục (x1), dó (22), và vàng (23). 


e Với mỗi điểm ảnh trong bức ảnh đó, xem nó gần với màu xanh, đỏ hay vàng nhất dựa 
trên giá trị của pixel đó. Nếu nó gần điểm xanh nhất, tăng xı lên một; gần đỏ nhất, tăng 
x lên một; gần vàng nhất, tăng x3 lên một. 


e Sau khi xem xét tất cả các điểm ảnh, dù cho bức ảnh có kích thước thế nào, ta vẫn thu 
được một vector có kích thước bằng ba, mỗi phần tử thể hiện việc có bao nhiêu pixel 
trong bức ảnh có màu tương ứng. Vector cuối này còn được gọi là histogram vector của 
bức ảnh tương ứng với ba màu xanh, đỏ, vàng. Vector này có thể coi là một đặc trưng 
tốt trong bài toán phân lớp ảnh rừng hay say mạc. 


Ví dụ 2: Trên thực tế, các bài toán xử lý ảnh không đơn giản như Ví dụ 1 trên đây. Mắt 
người thực ra nhạy với các đường nét, hình dáng hơn là màu sắc. Chúng ta có thể nhận biết 
được một bức ảnh có cây hay không ngay cả khi bức ảnh đó không có màu. Vì vậy, xem xét 
giá trị từng điểm ảnh một không mang lại kết quả khả quan vì lượng thông tin về đường 
nét bị mất quá nhiều. 


Có một giải pháp là thay vì xem xét một điểm ảnh, ta xem xét một vùng hình chữ nhật nhỏ 
trong ảnh, vùng này còn được gọi là patch. Các patch này nên đủ lớn để có thể chứa được 
các bộ phận có thể mô tả được vật thể trong ảnh. Ví dụ với mặt người, các patch nên đủ 
lớn để chứa được các phần của khuôn mặt như mắt, mũi, miệng như trong Hình 6.2. Tương 


5 5 Algorithms Every Web Developer Can Use and Understand, section 5 (https: //goo.gl/ LJWS3H1). 
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Hình 6.2: Bag of words cho ảnh chứa mặt người (Nguồn: Bag of visual words model: recognizing 
object categories (https: // goo.gl/ EN20SM ). 


tự thế, với ảnh là ô tô, các patch thu được có thé là bánh xe, khung xe, cửa xe, v.v. trên 
Hinh 6.3, hàng trên bên phải. 


Một câu hỏi được đặt ra là, trong xử lý văn bản, hai từ được coi là như nhau nếu nó được 
biểu diễn bởi các ký tự giống nhau. Vậy trong xử lý ảnh, hai patch được coi là như nhau khi 
nào? Khi mọi pixel trong hai patch có giá trị bằng nhau sao? 


Câu trả lời là không. Xác suất để hai patch giống hệt nhau từng pixel là rất thấp vì có thể 
một phần của vật thể trong một patch bị lệch đi vài pixel so với phần đó trong patch kia; 
hoặc phần vật thể trong patch bị méo, hoặc có độ sáng khác nhau, mặc dù mắt người vẫn 
nhìn thấy hai patch đó rất giống nhau. Vậy thì hai patch được coi là như nhau khi nào? Và 
từ điển ö đây được định nghĩa như thế nào? 


Câu trả lời ngắn cho câu hỏi này là hai patch được coi là gần giống nhau nếu khoảng cách 
Euclid giữa hai vector tạo bởi hai patch đó là nhỏ. Từ điển sẽ có số từ do ta tự chọn. Số từ 
trong từ điển càng cao thì độ sai lệch càng ít, nhưng sẽ nặng về tính toán hơn. 


Cu thé hơn chúng ta có thể áp dụng một phương pháp phân nhóm đơn giản là K-means 
clustering (xem Chương 10). Với rất nhiều patch thu được, giả sử ta muốn xây dựng một từ 
điển với chỉ khoảng 1000 tù. Ta có thể dùng K-means clustering dé phân toàn bộ các patch 
thành 1000 nhóm (bag) khác nhau. Mỗi nhóm gồm các patch gần giống nhau và được mô 
tả bằng trung bình cộng của tất cả các patch trong nhóm đó (xem Hình 6.3 hàng dưới). Với 
một ảnh bất kỳ, ta trích ra các patch từ ảnh đó, tìm xem mỗi patch gần với nhóm nào nhất 
trong 1000 nhóm tìm được ở trên và quyết định patch này thuộc nhóm đó. Cuối cùng, ta 
sẽ thu được một vector đặc trưng có kích thước bằng 1000 mà mỗi phần tử là số lượng các 
patch trong ảnh rơi vào nhóm tương ứng. 
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Appearance codebook 


Source: B. Leibe 


Hinh 6.3: Bag of Words cho ánh xe hoi (Nguón: B. Leibe). 


6.4 Transfer Learning cho bài toán phân loại ảnh 
(Giá sử rằng ban doc đã có kiến thúc nhất định vé deep neural network.) 


Ngoài BoW, các phương pháp thường được sử dụng để xây dựng feature vector cho ảnh là 
scale invariant feature transform-SIFT [Low99], speeded-up robust features-SURF [BTV G06], 
histogram of oriented gradients-HOG [D T05], local binary pattern-LBP. [Low99], v.v.. Các 
bó phân lớp thường được sử dung là multi-class SVM (Chương 29), softmaxz regression 
(Chương 15), sparse coding và discriminative dictionary learning [WYG*09, VMM *16, 
VM17], random forest [UW *02], v.v.. 


Các feature dugc tao bói các phuong pháp néu trén thuóng dugc goi là các feature duoc tao 
thủ công (hand-crafted feature) vì chúng chủ yêu dua trên các quan sát về đặc tính riêng của 
ảnh. Các phương pháp này cho kết quả khá ấn tượng trong một số trường hợp. Tuy nhiên, 
chúng vẫn còn nhiều hạn chế vì quá trình tìm ra các feature và các classifier phù hợp vẫn là 
riêng biệt. 


Những năm gần đây, deep learning phát triển cực nhanh dựa trên lượng dữ liệu huấn luyện 
khong 16 và khả năng tính toán ngày càng được cải tiến của các máy tính. Các kết quả cho 
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Hinh 6.4: Mô hình chung cho các bài toán classification sử dung Deep Learning. Layer cuói cùng 
thường là một Fully Connected Layer và thường là một Softmax Regression. 


bài toán phân loại ảnh ngày càng được nâng cao. Bộ cơ sở dữ liệu thường được dùng nhất là 
ImageNet (https: //www.image-net.org) 1.2 triệu ảnh cho 1000 class khác nhau. Rất nhiều 
các mô hinh deep learning đã giành chiến thắng trong các cuộc thi ImageNet large scale vi- 
sual recognition challenge-ILSVRC : AlexNet [KSH12], ZFNet [ZF14], GoogLeNet [SLJ 15], 
ResNet [HZRS16], VGG [SZ14]. Nhìn chung, các mô hinh này là các neural network với rất 
nhiều layer (xem Chương 16). Các layer phía trước thường là các convolutional layer. Layer 
cuối cùng là một fully connected layer và thường là một softmax regression (xem Hinh 6.4). 
Só lượng unit ở layer cuối cùng bằng với số lượng class (với ImageNet là 1000). Vi vậy out- 
put ở layer gần cuối cùng (second to last layer) có thể được coi là feature vector và softmax 
regression chính là classifier được sử dụng. 


Chính nhờ việc các feature và classifier được huấn luyện cùng nhau thông qua việc tối ưu 
các hệ số trong deep network khiến cho các mô hình này đạt kết quả tốt. Tuy nhiên, những 
mô hình này đều bao gồm rất nhiều layer và các trọng số. Việc huấn luyện dựa trên 1.2M 
bức ảnh của ImageNet cũng tốn rất nhiều thời gian (2-3 tuần). 


Với các bài toán dựa trên tập dữ liệu khác với ít dữ liệu hơn, ta có thể không cần xây dựng 
lại network và huấn luyện nó từ đầu. Thay vào đó, ta có thể sử dụng các mô hình đã được 
huấn luyện nêu trên, và sử dụng một vài kỹ thuật khác để giải quyết bài toán. Phương pháp 
sử dụng các mô hình có sẵn như thế này được gọi là transfer learning. 


Như đã đề cập, toàn bộ các layer trừ output layer có thể được coi là một feature extractor. 
Dựa trên nhận xét rằng các bức ảnh đều có những đặc tính giống nhau nào đó, với cơ sở dữ 
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liệu khác, ta cũng có thé sử dung phần feature extractor này dé tao ra các feature vector. 
Sau dó, ta thay output layer cúng báng mót softmax regression, multi-class SVM (vói só 
lượng unit phù hợp) hoặc các classifier phó biến khác. Cách làm này có thé tăng độ chính 
xác phân lớp lên đáng kể so với việc sử dụng các hand-crafted features. 


Hướng tiếp cận thứ hai là sử dụng các mô hình đã được huấn luyện và cho cập nhật một vài 
layer cuối dựa trên dit liệu mới thêm một vài vòng lặp. Kỹ thuật này được goi là tinh chính 
(fine-tuning). Việc này được dựa trên quan sát rằng những layer đầu trong deep network 
thường giúp trích xuất những đặc tính chung của ảnh (các cạnh, còn được gọi là low-level 
feature), các layer cuối thường mang những đặc trưng riêng của cơ sở dữ liệu (CSDL) (và 
được gọi là high-level feature). Vì vậy, việc huấn luyện các layer cuối mang nhiều giá trị hơn. 


Dựa trên kích thước và độ tương quan giữa CSDL mới và CSDL gốc (chủ yếu là ImageNet), 


có một vài quy tắc để huấn luyện network mới nhu saul: 


e CSDL mới là nhỏ và tương tự nhu CSDL gốc. Vi CSDL mới nhỏ, việc tiếp tục huấn luyện 
mô hình có thể dễ dẫn đến hiện tượng overfitting (Chương 8). Cũng vì hai CSDL là tương 
tự nhau, ta dự đoán rằng các high-level feature của chúng là tương tự nhau. Vì vậy, ta 
không cần huấn luyện lại network mà chỉ cần huấn luyện một classifer dựa trên feature 
vector ở đầu ra ở layer gần cuối. 


e CSDL mới là lớn và tương tự như CSDL gốc. Vi CSDL này lón, overfitting ít có khả năng 
xảy ra hơn, ta có thể huấn luyện mô hình thêm một một vài vòng lặp. Việc huấn luyện 
có thể được thực hiện trên toàn bộ hoặc chỉ một vài layer cuối. 


e CSDL mới là nhỏ và rat khác vói CSDL gốc. Vì CSDL này nhỏ, tốt hơn hết là dùng các 
classifier đơn giản để tránh overfitting. Nếu muốn huấn luyện thêm, ta cũng chỉ nên thực 
hiện trên các layer cuối. Hoặc sử dụng một kỹ thuật khác là coi đầu ra của một layer za 
layer cuối hơn (xa hơn layer gần cuối) làm các feature vector. 


e CSDL mới là lớn và rất khác CSDL góc. Thuc té cho thấy, sử dụng các network sẵn có 
trên CSDL mới vẫn hữu ích. Trong trường hợp này, ta vẫn có thể sử dụng các network 
sẵn có như là điểm khởi tạo của network mới, không nên huấn luyện network mới từ đầu. 


Có một điểm đáng chú ý nữa là khi tiếp tục huấn luyện các network này, ta chỉ nên chọn 
learning rate nhỏ để các hệ só mới không đi quá xa so với các hệ số đã được huấn luyện ở 
các mô hình trước. 


6.5 Chuẩn hoá vector đặc trưng 


Các điểm dữ liệu đôi khi được đo đạc với những đơn vị khác nhau, mét và feet chăng hạn. 
Hoặc có hai thành phần (của vector dữ liệu) chênh lệch nhau quá lớn, một thành phần có 
khoảng giá trị từ 0 đến 1000, thành phần kia chỉ có khoảng giá trị từ 0 đến 1 chẳng hạn. 
Lúc này, chúng ta cần chuẩn hóa dữ liệu trước khi thực hiện các bước tiếp theo. 


5 Transfer Learning, CS231n (https:// goo.gl/ VN1g7F) 


Machine Learning co bán https: // machinelearningcoban. com 


CHƯƠNG 6. GIÓI THIỆU VỀ FEATURE ENGINEERING 82 


Chú ý: việc chuẩn hóa này chỉ được thực hiện khi vector dữ liệu đã có cùng chiều. 
Một vài phương pháp chuẩn hóa thường dùng: 
6.5.1 Rescaling 


Phương pháp đơn giản nhất là đưa tất cả các đặc trưng về cùng một khoảng, cháng hạn 
[0, 1] hoặc [—1, 1] tùy thuộc vào ứng dụng. Nếu muốn đưa đặc trung thứ i của một vector 
đặc trưng x về khoảng [0, 1], công thức sẽ là: 


"ru zi — min(z;) 


max(z;) — min(z;) 


trong đó a; và 2; lần lượt là giá trị đặc trung ban đầu và giá trị đặc trưng sau khi được 
chuẩn hóa. min(z;),max(z;) là giá trị nhỏ nhất và lớn nhất của đặc trung thứ i xét trên 
toàn bộ các điểm dữ liệu của tập huấn luyện. 


6.5.2 Standardization 


Một phương pháp khác cũng thường được sử dụng là giả sử mỗi đặc trưng đều có phân phối 
chuẩn với kỳ vọng là 0 và phương sai là 1. Khi đó, công thức chuẩn hóa sẽ là 


/ Lie Li 


Cj 
với Z;, 0; làn lượt là kỳ vong và độ lệch chuẩn (standard deviation) của đặc trưng đó xét trên 
toàn bộ dữ liệu huấn luyện. 


6.5.3 Scaling to unit length 


Một lựa chọn khác cũng được sử dụng rộng rãi là chuẩn hóa các thành phần của mỗi vector 
dữ liệu sao cho toàn bộ vector có độ dài Euclid bằng một. Việc này có thể được thực hiện 
bằng cách chia mỗi vector đặc trưng cho #¿ norm của nó: 

x 


E 


/ 


6.6 Doc thém 


1. G. Csurka et al., Visual categorization with bags of keypoints. Workshop on statistical 
learning in computer vision, ECCV. Vol. 1. No. 1-22. 2004 [CDF*04]. 


2. S. Lazebnik et al, Beyond bags of features: Spatial pyramid matching for recognizing 
natural scene categories., CVPR 2006 [LSP06] 


3. Preprocessing data, scikit learn (https: // goo.gl/ gkCuUp). 
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Chương 7 SENE 


Linear regression 


Trong chương này, chúng ta cùng làm quen với một trong những thuật toán machine learning 
cơ bản nhất-linear regression (hồi quy tuyến tính). Qua chương này, bạn đọc sẽ có cái nhìn 
ban đầu về việc xây dựng một hệ thống machine learning. Linear regression là một thuật 
toán supervised, ở đó quan hệ giữa đầu vào và đầu ra được mô tả bởi một hàm tuyến tính. 
Thuật toán này còn được goi là linear fitting hoặc linear least square. 


7.1 Giới thiệu 


Xét bài toán ước lượng giá của một cán nhà rộng xı m?, có x phòng ngủ và cách trung tâm 
thành phố x3 km. Giả sử ta dà thu thập được số liệu từ 1000 cán nhà trong thành phố đó, 
liệu rằng khi có một căn nhà mới với các thông số về diện tích xı, số phòng ngủ zə và khoảng 
cách tới trung tam z3, chúng ta có thể dự đoán được giá y của căn nhà đó không? Nếu có 
thì hàm dự đoán y = f(x) sé có dang nhu thé nào. Ó đây, vector đặc trưng x = [21, #a, 23)" 
là một vector cột chứa thông tin đầu vào, đầu ra y là một số vô hướng. 


Một cách truc quan, ta có thể thay rằng: (i) diện tích nhà càng lớn thì giá nhà càng cao; (ii) 
số lượng phòng ngủ càng lớn thì giá nhà càng cao; (iii) càng xa trung tâm thì giá nhà càng 
giảm. Dựa trên quan sát này, ta có thể mô hình quan hệ giữa đầu ra và đầu vào bằng một 
hàm tuyến tính đơn giản: 


y 0 = f(x) = wit + 2%) + 323 = x^ w (7.1) 


trong đó w = [w,, wa, w3]? là vector hệ số (hoặc trong só-weight vector) ta cần di tim. Day 
cũng chính là tham só mô hình của bài toán. Mối quan hệ y = f(x) như trong (7.1) là một 
mối quan hệ tuyến tính. 


Bài toán trên đây là bài toán dự đoán giá trị của đầu ra dựa trên vector đặc trưng đầu vào. 
Ngoài ra, giá trị của đầu ra có thể nhận rất nhiều giá trị thực dương khác nhau. Vì vậy, 
day là một bài toán regression. Mối quan hệ y = xTw là một mối quan hệ tuyến tính. Tên 
goilinear regression xuat phát từ day. 
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Chú ý: 


1. yla giá trị thực của đầu ra (ground truth), trong khi y là giá trị đầu ra dự đoán (predicted 
output) của mô hình linear regression. Nhìn chung, y va y là hai giá trị khác nhau do có 
sai số mô hình, tuy nhiên, chúng ta mong muốn rằng sự khác nhau này rất nhỏ. 


2. Linear hay tuyến tính hiểu một cách đơn giản là thẳng, phẳng. Trong không gian hai 
chiều, một hàm số được gọi là tuyến tính nêu đồ thị của nó có dạng một đường thẳng. 
Trong không gian ba chiều, một hàm số được goi là tuyén tính nếu đồ thị của nó có 
dạng một mặt phẳng. Trong không gian nhiều hơn ba chiều, khái niệm mát phẳng không 
còn phù hợp nữa, thay vào đó, một khái niệm khác ra đời được gọi là siêu mát phẳng 
(hyperplane). Các hàm só tuyến tính là các hàm don giản nhất, vì chúng thuận tiện trong 
việc hình dung và tính toán. 


7.2 Xây dựng và tối uu hàm mát mát 
7.2.1 Sai số dự đoán 


Sau khi đã xây dựng được mô hình dự đoán đầu ra như (7.1), ta cần tìm một phép đánh giá 
phù hợp với bài toán. Với bài toán regression nói chung, ta mong muốn rằng sự sai khác e 
giữa giá trị thực y và giá trị dự đoán y là nhỏ nhất. Nói cách khác, chúng ta muốn giá tri 
sau đây càng nhỏ càng tốt: 


"TN T 2 
ge T 9 — $) x s(U—% w) (7.2) 


ở day ta lấy binh phương vì e = y — y có thé là một só âm. Việc sai só là nhỏ nhất có thể 
được mô tả bằng cách lay trị tuyệt đối le] = |y — ĝl, tuy nhiên, cách làm này ít được sử dụng 
vì hàm trị tuyệt đối không khả vi tại mọi điểm, không thuật tiện cho việc tối ưu sau này. 
Hệ số 1 sẽ bị triệt tiêu sau này khi lấy đạo ham của e theo tham số mô hình w. 


7.2.2 Hàm mát mát 


Điều tương tự xảy ra với tất cả các cáp (input, output) (xi, yi), i = 1,2,..., N, với N là số 
lượng dit liệu quan sát được. Điều chúng ta mong muốn- trung bình sai số là nhỏ nhất- tương 
đương với việc tìm w để hàm số sau đạt giá trị nhỏ nhất: 


£(w) = = V y — xTw)? (7.3) 


Hàm só L(w) chính là hàm mát mát cüa linear regression vói tham só mó hinh 0 = w. 
Chúng ta luôn mong muốn rằng su mát mát là nhỏ nhất, điều này có thé dat được bằng 
cách tối thiểu hàm mát mát theo w: 


w* = argmin L(w) (7.4) 


Ww 
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w* là nghiệm cần tim, đôi khi dấu * được bỏ di và nghiệm có thể được viết gọn lai thành 
w = argmin L(w). 


Trung binh sai só 


" `: — " " 
Việc lay trung binh (hệ só x hay lâu tổng trong hàm mát mát, vé mặt toán học, 


khóng ánh huóng tói nghiém cúa bài toán. Trong machine learning, các hàm mát mát 
thường có chúa hệ só tính trung binh theo từng điểm dü liệu trong tập huấn luyén. Khi 
tính giá trị của hàm mát mát trên tập kiểm thủ, ta cũng tính trung binh lỗi của mỗi 
điểm. Việc lay trung binh này quan trọng vi số lượng điểm dü liệu trong mỗi tập dữ 
liệu có thể thay đổi. Việc tính toán mắt mát trên từng điểm đữ liệu sẽ hữu ích hơn 
trong viéc đánh giá chất lượng mô hành sau này. Ngoài ra, tiệc lay trung binh cũng 
giúp tránh hiện tượng tràn số khi só lượng điểm dü liệu quá nhiều. 


Trước khi đi xây dựng nghiệm cho bài toán tối ưu hàm mát mát, ta thấy rằng hàm số này 
có thể được viết gọn lại dưới dạng ma trận, vector, và norm như dưới đây: 


2 
" yi xi 
1 1 (y xj 1 
L =.= pak Ww) = — - = — ly — X*wl|? 7.5 
UN XA 5 
với y = [UI,›,...,UN]", X = pa, xo,..., xy]. Như vậy L(w) là một ham số liên quan tới 


bình phương của 6s norm. 
7.2.3 Nghiệm cho bài toán Linear Regression 


Nhận thấy rằng hàm mát mát L(w) có đạo hàm tai mọi w (xem Bảng 2.1). Vậy việc tim 
giá trị tối ưu của w có thể được thực hiện thông qua việc giải phương trình đạo hàm của 
L(w) theo w bằng không. Thật may mắn, đạo hàm của hàm mất mát của linear regression 
rất đơn giản: 


V£(w) 1 T 
Vw ` y XX w — y) (7.6) 
Giái phuong trinh dao hám báng khóng: 
L 
VWI yak <= (7.7) 
Vw 


Nếu ma trận XXT khả nghịch, phương trinh (7.7) có nghiệm duy nhất w = (XX?)"!Xy. 


Nếu ma trận XXT không khả nghịch, phuong trinh (7.7) sẽ vô nghiệm hoặc có vô số nghiệm. 
Lúc này, một nghiệm đặc biệt của phương trình có thể được xác định dựa vào giả nghịch đảo 
(pseudo inverse). Nguoi ta chứng minh được rằng! với mọi ma trận X, luôn tồn tại duy nhất 


1 Least Squares, Pseudo-Inverse, PCA & SVD (https:// goo.gl/ RoQ6mS) 
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một giá tri w có £5 norm nhỏ nhất giúp tối thiểu |XTw — y||2. Cụ thể, w = (XX7)'Xy, 
trong đó (XXT)! là giả nghịch đảo của XX”. Giả nghịch đảo của một ma trận A luôn luôn 
tồn tại, thậm chí cả khi ma trận đó không vuông. Khi A là vuông và khả nghịch thì giả 
nghịch đảo chính là nghịch đảo. Nghiệm của bài toán tối ưu (7.4) là 

w=(XX”)Xy (7.8) 


Hàm số tính giả nghịch đảo của một ma trận bát kỳ có sẵn trong thư viện numpy. 

7.2.4 Bias trick 

Chú ý rằng quan hệ y = xTw là một quan hệ tuyến tính. Linear regression thường dé nói 

tới một quan hệ hơi phức tạp hơn một chút khi có sự xuất hiện của một số hạng tự do b: 
y=x' wb (7.9) 


Mối quan hé này còn được gọi là affine. Nếu b = 0, đường thang y = xTw + b luôn di qua 
gốc toa độ. Việc thêm hệ só b vào sé khiến cho mô hình linh hoạt hơn một chút bang cách 
bỏ ràng buộc đường thang quan hệ giữa đầu ra và đầu vào luôn di qua gốc toa độ. Dai lượng 
b còn được gọi là bias. Đại lượng này cũng có thể hoc được như vector hệ số w. 


Dé ý thấy rằng, nếu coi rg = 1, ta sẽ có: 


y= xTw +b = 101đ + 10283 +--+ Wata + bzo = XÍW (7.10) 
trong đó X = [2p,11,12,..., 2]? và w = [b,w,,wo,..., wy]. Nếu đặt X = [X,,Xo,...,Xy] 
ta sẽ có nghiệm của bài toán tối thiểu hàm mát mát: 

1 z `. 
w = argmin lly — X'w|2— (XX7)iXy (7.11) 


Kỹ thuật thêm một đặc trưng bằng 1 vào vector đặc trưng va ghép bias b vào vector hệ só 
w như trên còn được gọi là bias trick. Chúng ta sẽ còn gặp lại kỹ thuật này nhiều làn trong 
cuốn sách này. 


7.3 Ví dụ trên Python 
7.3.1 Bài toán 


Xét một ví du đơn giản có thể áp dung linear regression. Chúng ta cũng sẽ so sánh nghiệm của, 
bài toán khi giải theo phương trình (7.11) và nghiệm tìm được khi dùng thư viện scikit-learn 
của Python. 


Xét ví dụ về dự đoán cân nặng dựa theo chiều cao. Xét bảng cân nặng và chiều cao của 15 
người trong Bảng 7.1. Dữ liệu của hai người có chiều cao 155 cm và 160 cm được tách ra 
làm test set, phần còn lại tạo thành training set. 


Bài toán đặt ra là: liệu có thể dự đoán cân nặng của một người dựa vào chiều cao của họ 
không? (Trên thực tế, tất nhiên là không, vi cân nặng còn phụ thuộc vào nhiều yếu tó khác 
nữa, thể tích chẳng hạn). Có thể thấy là cân nặng thường tỉ lệ thuận với chiều cao (càng 
cao càng nặng), nên có thể sử dụng linear regression cho việc dự đoán này. 
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Báng 7.1: Báng dú liéu vé chiéu cao vá cán nặng của 15 người 


Chiều cao (cm)|Cân nặng (kg) || Chiều cao (cm)|Cân nặng (kg) 

147 49 168 60 
150 50 170 72 
153 51 173 63 
155 52 175 64 
158 54 178 66 
160 56 180 67 
163 58 183 68 
165 59 


7.3.2 Hiển thị dữ liệu trên đồ thị 


Trước tiên, chúng ta khai báo training data: 


from __future__ import print, function 

import numpy as np 

import matplotlib.pyplot as plt 

# height (cm), input data, each row is a data point 

X = np.array([[147, 150, 153, 158, 163, 165, 168, 170, 173, 175, 178, 180, 183]]).T 
# weight (kg) 

y = np.array([ 49, 50, 51, 54, 58, 59, 60, 62, 63, 64, 66, 67, 68]) 


Các điểm dữ liệu được minh hoạ bởi các điểm màu đỏ trong Hinh 7.1 Ta thấy rằng dữ liệu 
được sắp xếp gần nhu theo một đường thang, vậy mô hinh linear regression sau đây có kha 
năng cho kết quả tốt: 


(cân nặng) = w_1*(chiéu cao) + w 9 


ở dày w_0 chính là bias b. 


7.3.3 Nghiém theo cóng thúc 


Tiếp theo, chúng ta sẽ tính toán các hệ só w 1 và w_® dua vào công thức (7.11). Chú ý: giả 
nghịch đảo của một ma trận A trong Python sẽ được tinh bằng numpy.linalg.pinv(A). 


# Building Xbar 


one = np.ones((X.shape[0], 1)) 

Xbar = np.concatenate((one, X), axis = 1) 4 each point is one row 
f Calculating weights of the fitting line 

A = np.dot(Xbar.T, Xbar) 

b = np.dot(Xbar.T, y) 

w — np.dot(np.linalg.pinv(A), b) 

# weights 

w 0, w 1 = w[0], w[1] 
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75 Hinh 7.1: Phán bó cúa các 
al điểm dữ liệu (màu đỏ) và đường 
thang xâp xỉ tìm được bởi linear 
E 654 regression. 
E 60 
= 55 
504 ü 
ET 150 160 170 180 190 


Height (cm) 


Đường tháng mó tả mối quan hệ giữa đầu vào và đầu ra được cho trên Hinh 7.1. Ta thấy 
rằng các điểm dữ liệu màu đỏ nằm khá gần đường thang dự đoán màu xanh. Vậy mô hình 
linear regression hoạt động tốt với tập dữ liệu huấn luyện. Bây giờ, chúng ta sử dụng mô 
hình này để dự đoán dữ liệu trong test set: 


yl = w 1*155 + w 0 
y2 = w_1*160 + w 0 
print (“Input 155cm, true output 52kg, predicted output $.2fkg' 3(y1) ) 
print (‘Input 160cm, true output 56kg, predicted output $.2fkg' %(y2) ) 


Két quá: 


Input 155cm, true output 52kg, predicted output 52.94kg 
Input 160cm, true output 56kg, predicted output 55.74kg 


Chúng ta tháy ráng két quá du doán khá gán vói só liéu thuc té. 
7.3.4 Nghiệm theo thư viện scikit-learn 


Tiếp theo, chúng ta sẽ sử dụng thư viện scikit-learn dé tìm nghiệm. 


from sklearn import datasets, linear_model 

+ fit the model by Linear Regression 

regr = linear model.LinearRegression() 

regr.fit(X, y) # in scikit-learn, each sample is one row 

# Compare two results 

print("scikit-learn's solution : w 1 =", regr.coef [0], "w O0 = ", regr.intercept ) 


print("our solution : wil = ", w[1], "w 0 = ", w[0]) 


Kết quả dưới đây cho thấy rằng hai cách tính cho kết quả như nhau. 


= [-33.73541021] 


scikit-learn solution : w = [ 0.55920496] 
W = [-33. 73541021] 


w_0 
our solution : wll = [ 0.55920496] w_0 
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Polynomial regression 


—— Trained model 904 e 
_ 804 
Do 
x 
E 701 
=> $ „s ° 

= 

604 .° ° 

e 
50 oe 
140 150 160 170 180 190 


Height (cm) 


(a) (b) 


Hình 7.2: (a) Polynomial regression bậc ba. (b) Linear regression nhạy cảm với nhiễu nhỏ. 


7.4 Thảo luận 
7.4.1 Các bài toán có thể giải bằng linear regression 


Hàm só y ~ f(x) = x'w là một hàm tuyến tính theo cá w và x. Trên thực tế, linear 
regression có thể áp dụng cho các mô hình chỉ cần tuyến tính theo w. Ví dụ, 


y © wits + Wer. + 1031 + WaSin(12) + 10g12 + Wo (7.12) 


là một hàm tuyến tính theo w vá vì vậy cũng có thể được giải bằng linear regression. 
Với mỗi vector đặc trung x = [21,22|", chúng ta tính toán vector đặc trưng mới mới 
X = [r1, 22, 12, sin(a),#i#a|” rồi áp dung linear regression với dữ liệu mới này. Tuy nhiên, 
việc tim ra các hàm số sin(x2) hay 7122 là tương đối không tự nhiên. Hồi quy da thúc (poly- 
nomial regression) thường được sử dụng nhiều hơn với các vector đặc trưng mới có dạng 
[1, 21,22, ...]T. Một ví du về hồi quy đa thức bậc 3 được thể hiện trong Hình 7.2a. 


7.4.2 Hạn chê của linear regression 


Hạn chế đầu tiên của linear regression là nó rất nhạy cảm với nhiễu (sensitive to noise). 
Trong ví dụ về mối quan hệ giữa chiều cao và cân nặng bên trên, nếu có chỉ một cặp dữ liệu 
nhiễu (150 cm, 90kg) thì kết quả sẽ sai khác đi rất nhiều (xem Hinh 7.2b). 


Vì vậy, trước khi thực hiện linear regression, các nhiễu cần phải được loại bỏ. Bước này được 
goi là tiền rú ly (pre-processing). Hoặc hàm mát mát có thé thay đổi một chút để tránh việc 
tối ưu các nhiễu bằng cách sử dung Huber loss (https: // goo.gl/ TBUWzg). Linear regression 
với Huber loss được gọi là Huber regression, được khẳng định là robust to noise (ít bị ảnh 
hưởng hơn bởi nhiễu). Xem thêm Huber Regressor, scikit learn (https: //goo.gl/h2rKu5). 


Hạn chế thứ hai của linear regression là nó không biễu diễn được các mô hình phức 
tạp. Mặc dù trong phần trên, chúng ta thấy rằng phuong pháp này có thể được áp dung 
nếu quan hệ giữa outcome và input không nhất thiết phải là tuyến tính, nhưng mối quan 
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hệ này vẫn đơn giản nhiều so với các mó hình thực té. Hon nữa, việc tim ra các đặc trưng 
x? sinm(#s),#¡#¿ như ở trên là ít khả thi. 


7.4.3 Ridge regression 


Trong trường hợp ma trận XXT không khả nghịch, có một kỹ thuật nhỏ dé tránh hiện tượng 
nay là biến đổi XXT một chút để biến nó trở thành A = XXT + AI với A là một số duong 
rất nhỏ và I là ma tràn đơn vị với bậc phù hợp. 


Ma trận A là khả nghịch vì nó là một ma trận xác dinh dương. That vậy, với moi w Æ 0, 
w Aw = w! (XX? + Aw = wfXX”w + Aw*w = [X^ wl + A||w||2 > 0 (7.13) 


Lúc này, nghiệm của bài toán là y = (XXT + AI)! Xy. Nếu xét hàm mát mát 
1 
Lo(w) = gy ly — X^ wile + Allwlla) (7.14) 


với phương trình dao hàm theo w bằng không: 


MEW) =0© = (X(XTw — y) - Aw) = 0 (XX? + \I)w = Xy (7.15) 
Vw N 
Ta thấy w = (XX"+AD*Xy chính là nghiệm của bài toán tối thiểu La(w) trong (7.14). Mô 
hình machine learning với hàm mát mát (7.14) còn được goi là ridge regression. Ngoài việc 
giáp cho phuong trinh dao hàm theo hé só báng khóng có nghiém duy nhát, ridge regression 
còn giúp cho mó hình tránh được overfitting nhu chúng ta sẽ thấy ở Chương 8. 


7.4.4 Phương pháp tôi ưu khác 


Linear regression là một mô hình đơn giản, lời giải cho phương trình đạo hàm bằng không 
cũng khá đơn giản. Trong hầu hết các trường hợp, chúng ta không thể giải được phương trành 
dao hàm bằng không. Tuy nhiên, néu một hàm mát mát có đạo hàm không quá phức tạp, 
nó có thể được giải bằng một phương pháp rất hữu dụng có tên là gradient descent. Trên 
thực tế, một vector đặc trưng có thể có kích thước rất lớn, dẫn đến ma trận XX” cũng có 
kích thước lớn và việc tính ma trận nghịch đảo có thể không lợi về mặt tính toán. Gradient 
descent sẽ giúp tránh được việc tính ma trận nghịch đảo. Chúng ta sẽ hiểu kỹ hơn về phương 
pháp này trong Chương 12. 


7.4.5 Đọc thêm 
1. Simple Linear Regression Tutorial for Machine Learning (https: // goo.gl/ WRVda8). 


2. Regularization: Ridge Regression and the LASSO (https: // goo.gl/ uRzN1K ). 
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Overfitting 


Overfitting là một hiện tượng không mong muốn thường gặp, người xây dựng mô hình 
machine learning cần nắm được các kỹ thuật để tránh hiện tượng này. 


8.1 Giới thiệu 


Trong các bài toán supervised learning, chúng ta thường phải đi tìm một mô hình ánh xạ 
các vector đặc trưng thành các kết quả tương ứng trong training set. Tức là đi tìm hàm số 
f sao cho y; = f(x;), Vi = 1,2,..., N. Một cách tự nhiên, ta sẽ di tìm các tham só mô hinh 
của. ƒ sao cho việc xấp xi có sai số càng nhỏ càng tốt. Nói cách khác, mô hình càng khớp 
(fit) với dit liệu càng tốt. Tuy nhiên, sự thật là nếu một mô hình quá fit với dữ liệu thì nó 
sẽ gây phản tác dụng. Hiện tượng quá fit này trong machine learning được goi là overfitting. 
Dây là một hiện tượng xấu cần tránh. Vì có thể mô hình rất fit với training set nhưng lại 
không biểu diễn tốt dữ liệu không được nhìn thấy khi huấn luyện. Một mô hình chỉ mô tả 
tốt training set là mô hình không có fính tổng quát (generalization). Một mô hình tốt là mô 
hình có tính tổng quát. 


Dé có cái nhìn đầu tiên về overfitting, chúng ta cùng xem Hình 8.1. Có 50 điểm dữ liệu, ở 
đó đầu ra bằng một đa thức bậc ba của đầu vào cộng thêm nhiễu. Tập dữ liệu này được 
chia làm hai phần: 30 điểm dữ liệu màu đỏ là training set, 20 điểm dữ liệu màu vàng là dit 
liệu kiểm thử. Đồ thị của đa thức bậc ba này được cho bởi đường nét đứt màu xanh lục. Bài 
toán đặt ra là giả sử ta không biết mô hình ban đầu mà chỉ biết các điểm dữ liệu, hãy tìm 
một mô hình tốt để mô tả quan hệ giữa đầu vào và đầu ra của dữ liệu đã cho. Giả sử biết 
thêm rằng mô hình được mô tả bởi một đa thức. 


Nhắc lại đa thức nội suy Lagrange. Cho cặp điểm dữ liệu (x1, y1), (£2, y), ..., (EN, YN) 
với các x; khác nhau đôi một, luôn tìm được một đa thức P(.) bậc không vượt quá N — 1 
sao cho P(z;) = y; Vi = 1,2,..., N. 
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Degree = 4: Good fit 


Degree = 2: Underfitting 
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a / e Training samples i e Training samples 
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Hình 8.1: Underfitting và overfitting với polynomial regression. 


Như đã đề cập trong Chương 7, với loại dữ liệu này, chúng ta có thể áp dụng polynomial 
regression với vector đặc trưng là x = [1,#,z2,#Ở,...,z]f cho đa thức bậc d. Điều quan 


trọng là cần xác định bậc đ của đa thức. 

Rõ ràng là một đa thức bậc không vượt quá 29 có thể fit được hoàn toàn với 30 điểm trong 
tập training set. Xét một vài giá trị d = 2,4,8, 16. Với d = 2, mô hình không thực sự tốt vi 
mô hành dự đoán (predicted model) quá khác so với mó hành thực (true model); thậm chí nó 
có xu hướng đi xuống khi mà dữ liệu đang có hướng đi lên. Trong trường hợp này, ta nói mô 
hinh bị underfitting. Với d = 8, với các điểm dit liệu trong training set, mô hinh dự đoán và 
mô hình thực là khá giống nhau. Tuy nhiên, về phía phải, đa thức bậc 8 cho kết quả hoàn 
toàn ngược với xu hướng của dit liệu. Điều tuong tự xảy ra trong trường hợp d = 16. Da 
thức bậc 16 này quá fit training set. Việc quá fit trong trường hợp bậc 16 là không tốt vi 
mô hình có thể dang có gắng mô tà nhiéu hơn là dữ liệu. Hiện tượng xảy ra ở hai trường 
hợp đa thức bậc cao này được gọi là overfitting. Độ phức tạp của đồ thị trong hai trường 

hợp này cũng khá lớn, dán đến các đường dự đoán không được tự nhiên. 
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Với d = 4, mó hình dự đoán khá giống với mó hình thực. Hệ số bậc cao nhất tim được rất 
gần với 0!, vì vậy da thuc bậc bón này khá gần với đa thức bậc ba ban đầu. Day chính là 
một mô hình tốt. 


Overfitting là hiện tượng mô hình tìm được quá khớp với dữ liệu huấn luyện. Việc này sẽ 
gây ra hậu quả lớn nếu trong training set có nhiễu. Khi đó, mô hình quá chú trọng vào việc 
xấp xỉ training set mà quên đi việc quan trọng hơn là tính tổng quát, khiến cho mô hình 
không thực sự mô tả tốt dữ liệu ngoài training set. Overfitting đặc biệt xảy ra khi lượng dit 
liệu huấn luyện quá nhỏ hoặc độ phức tạp của mô hình quá cao. Trong ví dụ trên đây, độ 
phức tạp của mô hình có thể được coi là bậc của đa thức cần tìm. 


Vậy, có những kỹ thuật nào giúp tránh overfitting? 


Trước hết, chúng ta cần một vài đại lượng để đánh giá chất lượng của mô hình trên training 
set và test set. Dưới đây là hai đại lượng đơn giản, với giả sử y là đầu ra thực sự (có thể là 
vector), và là đầu ra dự đoán bởi mô hình. 


Training error: Dại lượng này là mức độ sai khác giữa đầu ra thực và đầu ra dự đoán của 
mô hình, thường là giá trị của hàm mát mát áp dụng lén training data. Hàm mát mát này 


cần có một thừa số để tính giá trị trung bình, tức mất mát trung bình trên mỗi điểm 


train 
dữ liệu. Với các bài toán regression, đại lượng này thường được xác định bởi mean squared 
error (MSE). 


1 
traini — EEFTP 
raining error Nenas 25 ly — $112 


training set 


Với classification, trung binh cộng của cross entropy loss (với softmax regression) hoặc hinge 
loss (vói multi-class SVM) thuóng duoc sú dung. 


Test error: ương tu nhu trên, nhưng mô hinh tìm được được áp dung vào test data. Chú 
ý rằng, khi xây dung mó hình, ta không được sử dung thông tin trong tập dữ liệu này. Với 
regression, đại lượng này thường được định nghĩa bởi 


1 a 112 
Te ly - $12 


test set 


test error — 


Việc láy trung binh là quan trong vi lượng dữ liệu trong tập huấn luyén và tập kiểm thủ có 
thé chénh léch rát nhiéu. 


Một mó hinh được coi là tốt (fit) nếu cà training error và test error đều tháp. Néu training 
error tháp nhung test error cao, ta nói mó hinh bi overfitting. Nóu training error cao và 
test error cao, ta nói mó hinh bi underfitting. Xác suát dé xáy ra viéc training error cao 
nhung test error thấp là rất nhỏ. Trong chương này, chúng ta sé làm quen với hai kỹ thuật 
phó biến giúp tránh overfitting là validation và regularization. 


! Source code tai https: //g00.gl/uD9hmi . 
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Hinh 8.2: Lua chon mó hinh dua 
trén validation error. 


— Train error 
— Validation error 
— Test error 


degree 


8.2 Validation 
8.2.1 Validation 


Một mô hình là tốt nếu cả training error và test error đều nhỏ. Tuy nhiên, khi xây dựng một 
mô hình chi dựa trên training set, làm thế nào để biết được chát lượng của nó trên test set? 


Phương pháp đơn giản nhất là trích từ training set ra một tập con nhỏ và thực hiện việc 
đánh giá mô hình trên tập con nhỏ này. Tập con nhỏ được trích ra từ training set này 
được gọi là validation set. Lúc này, training set mới là phần còn lại của training set 
ban đầu. Việc này khá giống với việc chúng ta ôn thi. Giả sử các đề thi của các năm trước 
là training set, đề thi năm nay là test set mà ta chưa biết. Khi ôn tập, ta thường chia đề các 
năm trước ra hai phần: phần thứ nhất có thể xem lời giải và tài liệu để ôn tập, phần còn lại 
ta tự làm mà không sử dụng tài liệu để tự đánh giá kiến thức của mình. Lúc này, phần thứ 
nhất đóng vai trò là training set mới, trong khi phần thứ hai chính là validation set. Nếu 
kết quả bài làm trên phần thứ hai là khả quan, ta có thể tự tin hơn khi vào bài thi thật. 


Lúc này, có ba đại lượng cần được quan tâm: training error trên training set mới, validation 
error được định nghĩa tương tự trên validation set, và test error trên test set. Với khái niệm 
mới này, ta tìm mô hinh sao cho cá train eror và validation error đều nhỏ, qua đó có thể 
dự đoán được rằng test error cũng nhỏ. Dé làm được việc này, ta có thể huấn luyện nhiều 
mô hình khác nhau dựa trên training set, sau đó ấp dụng các mô hình tìm được và tính 
validation error. Mô hình cho validation error nhỏ nhất sẽ là một mô hình tốt. 


Thông thường, ta bắt đầu từ mô hình đơn giản, sau đó tăng dần độ phức tạp của mô hình. 
Khi độ phức tạp này tăng lên, training error sẽ có xu hướng nhỏ dần, nhưng điều tương tự 
có thể không xảy ra ở validation error. Validation error ban đầu thường giảm dần và đến 
một lúc sẽ tăng lên do overfitting xảy ra trên training khi độ phức tạp của mô hình tăng 
lên. Để chọn ra một mô hình tốt, ta quan sát validation error. Khi validation error có chiều 
hướng tăng lên thì ta chọn mô hình trước đó. 


Hình 8.2 mô tả ví dụ phía trên với bậc của đa thức tăng từ một đến tám. Validation set là 
10 điểm được láy ra ngẫu nhiên từ training set 30 điểm ban đầu. Chúng ta hãy tam chỉ xét 
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hai duóng màu lam và dó, tuong úng vói training error và validation error. Khi bác cúa da 
thức tăng lên, training error có xu hướng giảm. Điều này dé hiểu vi da thức bậc càng cao, 
việc xấp xỉ càng chính xác. Quan sát đường màu đỏ, khi bậc của đa thức là ba hoặc bốn thì 
validation error thấp, sau đó nó tăng dần lên. Dựa vào validation error, ta có thể xác định 
được bậc cần chọn là ba hoặc bốn. Quan sát tiếp đường màu lục, tương ứng với test error, 
thật là trùng hợp, với bậc bằng ba hoặc bốn, test error cũng đạt giá trị nhỏ nhất, sau đó 
tăng dần lên. Vậy cách làm này ở đây đã tỏ ra hiệu quả. Và mô hình phù hợp là mô hình 
có bậc bằng ba hoặc bốn. Trong ví dụ này, validation set đóng vai trò tìm ra bậc của đa 
thức, training set đóng vai trò trong việc tìm các hệ số của đa thức với bậc đã biết. Các hệ 
số của đa thức chính là các model parameter, trong khi bậc của đa thức có thể được coi là 
hyperparameter. Cả training set và validation set đều đóng vai trò xây dựng mô hình. Nhắc 
lại rằng hai tập hợp này được tách ra từ training set ban đầu. 


Việc không sử dụng test data khi lựa chọn mô hình ở trên nhưng vẫn có được kết quả khả 
quan vì ta đã giả sử rằng validation data và test data có chung một đặc điểm nào đó (chung 
phân phối và đều chưa được mô hình nhìn thấy khi huấn luyện). Và khi cả hai đều là chưa 
được nhìn thấy, error trên hai tập này sẽ tương đối giống nhau. 


Dé ý rằng, khi bậc nhỏ (bằng một hoặc hai), cả ba error đều cao, khi đó underfitting xay ra. 
.2 


8.2.2 Cross-validation 

Trong nhiều trường hợp, chúng ta có rất hạn chế số lượng dữ liệu để xây dựng mô hình. Nếu 
lấy quá nhiều dữ liệu trong training set ra làm dit liệu validation, phần dữ liệu còn lại của 
training set là không đủ để xây dựng mô hình. Lúc này, validation set phải thật nhỏ để giữ 
được lượng dữ liệu cho training đủ lớn. Tuy nhiên, một vấn đề khác nảy sinh. Khi validation 
set quá nhỏ, hiện tượng overfitting lại có thể xảy ra với training set còn lại. Có giải pháp 
nào cho tình huống này không? 


Câu trả lời là cross-validation. 


Cross-validation là một cải tiên của validation với lượng dữ liệu trong validation set là nhỏ 
nhưng chất lượng mô hình được đánh giá trên nhiều tập validation khác nhau. Một cách 
thường được sử dụng là chia training set ra k tập con không giao nhau, có kích thước gần 
bằng nhau. Tại mỗi lần, được gọi là một run, một trong số k tập con được lấy ra làm 
validation set. Nhiều mô hình khác nhau sẽ được xây dựng dựa vào hợp của k — 1 tập con 
còn lại. Mô hình cuối được xác định dựa trên trung bình của các training error và validation 
error. Cách làm này còn có tên gọi là k-fold cross-validation. 


Khi k bằng với số lượng phần tử trong training set ban đầu, tức mỗi tập con có đúng một 
phần tử, ta gọi kỹ thuật này là leave-one-out. 


Thư viện scikit-learn hỗ trợ rất nhiều phương thức cho phân chia dữ liệu và tính toán 
error của các mô hình. Ban đọc có thể xem thêm Cross-validation: evaluating estimator 
performance (https: // goo.gl/ Ars2cr). 
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E Hình 8.3: Early stopping. Đường 
màu xanh lá training error, màu đỏ 
là validation error. Trục x thể hiện 

A só lượng vòng lặp, trục y lá giá tri 
error. Thuật toán huấn luyện dừng 
lại tại vòng lặp mà validation error 
đạt giá trị nhỏ nhất (Nguồn: Over- 
fitting — Wikipedia). 


8.3 Regularization 


Một nhược điểm lớn của cross-validation là só lượng mô hình cần huấn luyện tỉ lệ thuận với 
k. Diều đáng nói là mô hình polynomial regression như trên chỉ có một tham số liên quan 
đến độ phức tạp của mô hình cần xác định là bậc của đa thức. Trong các nhiều bài toán, 
lượng tham số cần xác định thường lớn hơn nhiều, và khoảng giá trị của mỗi tham số cũng 
rộng hơn nhiều, chưa kể đến việc có những tham số có thể là số thực. Điều này dẫn đến việc 
huấn luyện nhiều mô hình là khó khả thi. Có một kỹ thuật giúp số mô hình cần huấn luyện 
giảm đi nhiều, thậm chí chỉ một mô hình. Kỹ thuật này có tên gọi là regularization. 


Regularization, một cách dễ hiểu, là thay đổi mô hình một chút, chấp nhận hy sinh độ chính 
xác trong training set, nhưng giảm độ phức tạp của mô hình, giúp tránh overfitting trong 
khi vẫn giữ được tính tổng quát của nó. Dưới đây là một vài kỹ thuật regularization. 


8.3.1 Early stopping 


Rất nhiều các mô hình machine learning được xây dựng bằng cách sử dụng các thuật toán 
lặp cho tới khi hàm mát mát hội tụ để tìm ra nghiệm. Nhìn chung, giá trị hàm mát mát 
giảm dàn khi số vòng lặp tăng lên. Một giải pháp giúp giảm overfitting là dừng thuật toán 
trước khi nó hội tụ. Giải pháp này có tên là early stopping. 


Vậy dừng khi nào là phù hợp? Một kỹ thuật thường được sử dụng là tách từ training set ra 
một validation set như trên. Trong khi huấn luyện, ta tính toán cả training error và validation 
error, nếu training error vẫn có xu hướng giảm nhưng validation error có xu hướng tăng lên 
thì ta dừng thuật toán. 


Hình 8.3 mô tả cách tìm điểm stopping. Chúng ta thấy rằng phương pháp này khá giống với 
phương pháp tìm bậc của đa thức ở phần trên của bài viết, với độ phức tạp của mô hình có 
thể được coi là số vòng lặp cần chạy. Số vòng lặp càng cao thì hàm mất mát càng nhỏ, tức 
mô hình có khả năng quá fit với training set. 
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8.3.2 Thém só hang váo hám mát mát 


Kỹ thuật regularization phó bién hơn là thêm vào hàm mát mát một só hang nữa. Số hang 
này thường dùng để đánh giá độ phức tạp của mô hình với giá trị lớn thể hiện mô hình 
phức tạp. Hàm mát mát mới này được gọi là regularized loss function, thường được dinh 
nghĩa như sau: 
£s (8) = £(8) + AR(0) 

Nhắc lại rang Ø được dùng để ký hiệu các tham số trong mô hình. £(0) là hàm mát mát 
phụ thuộc vào training set và 0, R(0) là số hạng regularization chỉ phụ thuộc vào 0. Số vô 
hướng A thường là một số dương nhỏ, còn được gọi là tham số regularization (regularization 
parameter). Tham số regularization thường được chọn là các giá trị nhỏ để đảm bảo nghiệm 
của bài toán tối ưu Lreg(0) không quá xa nghiệm của bài toán tối ưu L(0). 


Hai hàm regularization pho bién là /¡ norm và l> norm regularization (viết gon là /4 regu- 
larization và £? regularization). Ví dụ, khi chọn R(w) = ||w||2 cho hàm mát mát của linear 
regression, chúng ta sé dat dugc ridge regression. Hàm regularization này khión các hé só 
trong w khóng quá lón, giáp tránh viéc dàu ra phu thuóc quá nhiéu vào mót dác trung 
nào đó. Trong khi đó, khi chọn R(w) = ||w||i, nghiệm w tim được có xu hướng rất nhiều 
phần tử bằng không (sparse solution”). Khi thêm f¡ regularization vào hàm mát mát của 
linear regression, chúng ta sẽ thu được LASSO regression. Các thành phần khác không của 
w tương đương với các đặc trưng quan trọng đóng góp vào việc dự đoán đầu ra. Các đặc 
trưng ứng với thành phần bằng không của w được coi là ít quan trọng. Chính vì vậy, LASSO 
regression cũng được coi là một phương pháp giúp lựa chọn những đặc trưng hữu ích cho 
mô hình; nó cũng là một trong các phương pháp feature selection. 


lı regularization được cho là giúp cho mô hinh robust (ít bị ảnh hưởng bởi nhiễu) hơn so với 
(5 regularization. Tuy nhiên, han chế của /, regularization là dao hàm của /, norm không 
xác định tại không (đạo hàm của hàm trị tuyệt đối), dẫn đến việc tìm nghiệm thường tốn 
thời gian hơn. Trong khi đó, đạo ham của l, norm xác định moi noi, và trong nhiều trường 
hợp, ta có thể tìm được công thức nghiệm cho phương trình đạo hàm của (regularized) loss 
function bằng không. Các nghiệm có công thức xác định được gọi là closed-form solution. 


Trong neural network, việc sử dung 42 regularization còn được gọi là weight decay [KH92]. 
Ngoài ra, gần dày một phương pháp regularization rất hiệu quả cho neural network được sử 
dụng là dropout [SHK* 14]. 

8.4 Đọc thêm 

1. A. Krogh et al., A simple weight decay can improve generalization. NIPS 1991 [KH92]. 


2. N. Srivastava et al., Dropout: A Simple Way to Prevent Neural Networks from Overfitting, 
Journal of Machine Learning Research 15.1 (2014): 1929-1958 [SHK*14]. 


3. Understanding the Bias- Variance Tradeoff (https: // g00.gl/yvQuiw). 


2 L1 Norm Regularization and Sparsity Explained for Dummies (https:// goo.gl/ VqPTLh). 
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Phần III 


Khói dóng 


Trong phần này, chúng ta sẽ làm quen với ba thuật toán machine learning chưa cần nhiều 
tới tối ưu: k-means clustering cho phân nhóm dữ liệu, k-nearest neighbors cho classification 
và regression, naive Bayes classifier cho phân loại văn bản. 


Chương 9 


K-nearest neighbors 


Nếu như con người có kiểu học “nước đến chân mới nhảy” thì machine learning cũng có một 
thuật toán như vậy. 


9.1 Giới thiệu 
9.1.1 K-nearest neighbor 


K-nearest neighbor (KNN) là một trong những thuật toán supervised learning đơn giản. Khi 
huấn luyện, thuật toán này không học một điều gì từ dữ liệu huấn luyện mà nhó lại một 
cách máy móc toàn bộ dữ liệu đó. Dây cũng là lý do thuật toán này được xếp vào loại lazy 
learning, moi tính toán được thực hiện khi nó cần dự đoán đầu ra của dí liệu mới. KNN có 
thể áp dụng được vào cả classification vá regression. KNN còn được gọi là một thuật toán 
instance-based [AKA91] hay memory-based learning. 


Với KNN, trong bai toán classification, nhãn của một điểm dữ liệu mới được suy ra trực tiếp 
từ điểm dữ liệu gần nhất trong tập huấn luyện. Nhãn đó có thể được quyết định bằng 
bau chon theo da só (major voting) trong số K điểm gần nhất, hoặc nó có thể được suy ra 
bằng cách đánh trọng số khác nhau cho mỗi trong các điểm gần nhất đó rồi suy ra kết quả. 
Chi tiết sẽ được nêu trong phần tiếp theo. Trong bài toán regresssion, đầu ra của một điểm 
dữ liệu sẽ bằng chính đầu ra của điểm dữ liệu đã biết gần nhất (trong trường hợp K = 1), 
hoặc là trung bình có trọng số của đầu ra của những điểm gần nhất, hoặc bằng một mối 
quan hệ dựa trên các điểm gần nhất đó và khoảng cách tới chúng. 


Một cách ngắn gọn, KNN là thuật toán đi tìm đầu ra của một điểm dữ liệu mới bằng cách 
chỉ dựa trên thông tin của điểm dữ liệu gần nhất trong tập huấn luyện. 


Hình 9.1 mô tả một bài toán phân lớp với ba class: đỏ, lam, lục. Các hình tròn nhỏ với màu 
khác nhau thể hiện dữ liệu huấn luyện của các class khác nhau. Các vùng màu nền khác 
nhau thể hiện lãnh thổ của mỗi class. Tại một điểm bất kỳ, class của nó được xác định dựa 
trên class của điểm gần nó nhất trong trong tập huấn luyện. Trong hình này, có một vài 
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Hình 9.1: Ví dụ vé 1NN. Các hình tròn 
là các điểm dữ liệu huấn luyện. Các hình 
khác màu thể hiện các lớp khác nhau. Các 
vùng nền thể hiện các điểm được phân 
loại vào lớp có màu tương ứng khi sử 
dựng 1NN (Nguồn: K-nearest neighbors 
algorithm — Wikipedia). 


vùng nhỏ xem lẫn vào các vùng lớn hơn khác màu. Ví dụ có một điểm màu lục ở gần góc 11 
giờ nằm giữa hai vùng lớn với nhiều dí liệu màu đỏ và lam. Điểm này rất có thể là nhiễu. 
Việc này nhiều khả năng sẽ dẫn đến việc phân lớp sai cho một điểm dữ liệu kiểm thử rơi 
vào khu vực này. 


KNN là một ví dụ rõ nhất của overfitting. Với mô hình này, mọi điểm trong tập huấn luyện 
đều được mô hình mô tả một cách chính xác, vì vậy, nó rất nhạy cảm với nhiễu. 


Mặc dù có nhiều hạn chế, KNN vẫn là một giải pháp đầu tiên nên nghĩ tới khi giải quyết 
một bài toán machine learning. Khi làm các bài toán machine learning nói chưng, không có 
mô hành đứng hay sai, chỉ có mó hành cho kết quả tốt hơn. Chúng ta luôn cần một mô hành 
đơn giản để giải quyét bài toán, sau đó dần dần tim cách tăng chất lượng của mô hành. 


9.2 Phân tích toán học 


KNN là một thuật toán lazy learning, không có hàm mát mát nào và bài toán tối uu nào 
phải thực hiện trong quá trình huấn luyện. Mọi tính toán được thực hiện ở bước kiểm thử. 
Vì KNN ra quyết định dựa trên các điểm gần nhất nên có hai vấn đề ta cần lưu tâm. Thứ 
nhất, khoảng cách được định nghĩa như thế nào. Thứ hai, cần phải tính toán khoảng cách 
như thế nào cho hiệu quả. 


Với vấn đề thứ nhất, mỗi điểm dữ liệu được thể hiện bằng một vector đặc trưng, khoảng 
cách giữa hai điểm chính là khoảng cách giữa hai vector đó. Để đo khoảng cách trong không 
gian nhiều chiều, norm (xem Mục 1.14) thường được sử dung, và norm phổ biến nhất là 4 
norm, chính là khoảng cách Euclid quen thuộc. 


Ta cần lưu ý tới vấn đề thứ hai hơn, đặc biệt với các bài toán vói tập huấn luyện lớn và 
vector đặc trưng có kích thước lớn (large-scale problem). Giả sử các vector đặc trưng huấn 
luyện là các cột của ma trận X € RN với d và N lớn, KNN sẽ phải tính toán khoảng cách 
từ một điểm dữ liệu mới z € IR^ đến toàn bộ N điểm dữ liệu đã cho và chon ra K khoảng 
cách nhỏ nhất. Nếu không có một cách tính hiệu quả, khối lượng tính toán ở đây sẽ rất lớn. 
Đây cũng là cái giá phải trả cho việc lazy learning. 
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Tiếp theo, chúng ta cùng thực hiện một vài phân tích toán hoc dé tim ra cách tính các 
khoảng cách một cách hiệu quả. 


Khoảng cách từ một điểm tới từng điểm trong một tập hợp 


Khoảng cách Euclid từ một điểm z tới một điểm x; trong tập huấn luyện được định nghĩa 
bởi ||z — x;||5. Vi trong cách tính này có một bước phải tính cán bậc hai nên người ta thường 
tính ||z — x;||2. Nếu việc tính khoảng cách chỉ để phục vụ việc sắp xếp thì ta không cần tính 
căn bậc hai sau bước này nữa. Để ý rằng 

lz = xil? = (z x)" (x x) = alió + lxil? — 272 (9.1) 
Từ đây, nếu nhiệm vu chi là tìm ra x; gần với z nhất, số hạng đầu tiên có thể được bỏ qua. 
Hơn nữa, nếu có nhiều điểm dit liệu trong tập kiểm thử, các giá trị ||x;||2 có thể được tính 
và lưu trước vào bộ nhớ. Khi đó, ta chỉ cần tính các tích vô hướng x7z. 


Để thấy rõ hơn, chúng ta cùng làm một ví dụ trên Python. Trước hết, chọn d và N là các 
giá trị lớn và khai báo ngẫu nhiên X và z. Lưu ý rằng vì dữ liệu trong Python thường được 
lưu ở dạng hàng, khi lập trình ta cần thay đổi một chút. 


from __future__ import print function 

import numpy as np 

from time import time # for comparing runing time 

d, N = 1000, 10000 # dimension, number of training points 
np.random.randn(N, d) 4$ N d-dimensional points 
np.random.randn (d) 


Tiép theo, ta viét ba hàm só: 


1. dist pp(z, x) tính binh phuong khoảng cách Euclid giữa hai vector z và x. Hàm này thực 
hiện cách tính trực tiếp, tức tính hiệu rồi lấy binh phuong l> norm của vector hiệu. 


2. dist_ps_naive(z, X) tính bình phương khoảng cách giữa z và mỗi hàng của X. Trong hàm 
này, các khoảng cách được tính dựa trên việc tính từng cáp dist_pp(z, X[i]). 


3. dist_ps_fast(z, X) tính binh phương khoảng cách giữa z và mỗi hàng của x, tuy nhiên, 
kết quả được tính dựa trên đẳng thức (9.1). Khi có nhiều điểm dữ liệu được lưu trong 
X, ta cần tính tổng bình phương các phần tử của mỗi điểm dữ liệu và tính tích X7z. 


Đoạn code dưới đây thể hiện cách tính khoảng cách từ một điểm z tới một tập hợp điểm x 
bằng hai cách. Kết quả và thời gian chạy của mỗi hàm cũng được in ra dé so sánh. 
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# naively compute square distance between two vector 

def dist_pp(z, x): 
d Z x.reshape(z.shape) 4 force x and z to have the same dims 
return np.sum(d*d) 


# from one point to each point in a set, naive 
def dist ps naive(z, X): 
N = X.shape[0] 
res = np.zeros 
for i in range 
res[0][i] 
return res 


((1, N)) 
(N) : 
= dist pp(z, X[i]) 


# from one point to each point in a set, fast 

def dist ps fast(z, X): 
X2 = np.sum(X*X, 1) # square of 12 norm of each ROW of X 
z2 = np.sum(z*z) 4 square of 12 norm of z 
return X2 + z2 - 2*X.dot(z) # z2 can be ignored 


tl = time() 
D1 dist ps naive(z, X) 
print('naive point2set, running time:', time() - tl, 's') 


tl = time() 

D2 = dist ps fast(z, X) 

print('fast point2set , running time:', time() - tl, 's') 
print('Result difference:', np.linalg.norm(D1 - D2)) 


Kết quả: 


naive point2set, running time: 0.0932548046112 s 
fast point2set , running time: 0.0514178276062 s 
Result difference: 2.11481965531e-11 


Kết quả chỉ ra rằng hàm dist ps fast(z, X) chạy nhanh hơn gần gấp đôi so với hàm 
dist_ps_naive(z, X) (số này còn lớn hơn nữa khi kích thước dit liệu tăng lên). Quan trọng 
hơn, sự chênh lệch của kết quả hai phép tính là một số rất nhỏ. Điều này chỉ ra rằng 
dist_ps_fast(z, X) nên được ưu tiên hon. 


Khoảng cách giữa từng cặp điểm trong hai tập hợp 


Thông thường, ta không những phải tính khoảng cách từ một điểm z tới tập hợp các điểm 
X, mà thường xuyên còn phải tính khoảng cách giữa nhiều điểm Z tới X. Nói đúng hon, ta 
phải tính từng cặp khoảng cách giữa mỗi điểm trong tập kiểm thử và một điểm trong tập 
huấn luyện. Nếu mỗi tập có 1000 phần tử, ta sẽ phải tính một triệu khoảng cách-là một số 
rất lớn. Nếu không có một phương pháp tính hiệu quả, thời gian thực hiện sẽ là rất lớn. 


Dưới đây là đoạn code thực hiện cách tính bình phương khoảng cách giữa các cặp điểm trong 
hai tập điểm sử dụng hai phương pháp khác nhau. Phương pháp thứ nhất sử dụng một vòng 
for tính khoảng cách từ từng điểm trong tập thứ nhất đến tất cả các điểm trong tập thứ 
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hai sử dụng hàm dist_ps_fast(z, X) ở trên. Phương pháp thứ hai tiếp tục sử dụng (9.1) cho 
trường hợp tổng quát. 


M = 100 
np.random.randn(M, d) 


N 
ll 


# from each point in one set to each point in another set, half fast 
def dist_ss_0(Z, X): 


M = Z.shape[0] 
N = X.shape[0] 
res = np.zeros((M, N)) 


for i in range(M): 
res[i] = dist ps fast(Z[i], X) 
return res 


# from each point in one set to each point in another set, fast 
def dist ss fast(Z, X): 
X2 = np.sum(X*X, 1) # square of 12 norm of each ROW of X 
+ 


Z2 = np.sum(Z*Z, 1) square of 12 norm of each ROW of Z 
return Z2.reshape(-1, 1) + X2.reshape (1, 1) 2*A2.do0t (X.T) 

tl = time() 

D3 = dist ss O(Z2, X) 

print('half fast set2set running time:', time() - tl, 7s”) 

t1 = time() 

D4 = dist ss fast(Z, X) 

print ("fast set2set running time’, time() = tl, 's') 

print (‘Result difference:', np.linalg.norm(D3 - D4)) 

Két quá: 


half fast set2set running time: 4.33642292023 s 
fast set2set running time 0.0583250522614 s 
Result difference: 9.93586539607e-11 


Điều này chỉ ra rằng hai cách tính cho kết quả chênh lệch nhau không đáng ké. Trong khi 
đó dist ss fast(Z, X) chay nhanh hon dist ss 9(Z, X) nhiều làn. 


Khi làm việc trên python, chúng ta có thé sử dung hàm cdist (https: //g00.gl/vYMnmM) 
trong scipy.spatial.distance, hoặc hàm pairwise distances (https:// goo.gl/ QK6Zyi) trong 
sklearn.metrics.pairwise. Các hàm này giüp tính khoáng cách tüng cáp diém trong hai táp 
hợp khá hiệu quả. Phần còn lại của chương này sé trực tiếp sử dung thu viện scikit-learn 
cho KNN. Việc viết lại thuật toán này không quá phức tạp khi đã có một hàm tính khoảng 
cách hiệu quả. 


Nếu thực hiện trên GPU, bạn đọc có thể tham khảo thêm bài báo [JDJ17] và source code 
của nó tai https: // github.com/ facebookresearch/ faiss. 
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Iris setosa Iris versicolor Iris virginica 


Hinh 9.2: Ba loai hoa lan trong bộ cơ sở dữ liệu hoa Iris. 


9.3 Ví du trên cơ sở dữ liệu Iris 
9.3.1 Bộ cơ sở dữ liệu hoa Iris (Iris flower dataset). 


Iris flower dataset (https: // goo.gl/ eUy83R) là một bộ dit liệu nhỏ. Bộ dữ liệu này bao gồm 
thông tin của ba class hoa Iris (một loài hoa lan) khác nhau: Iris setosa, Iris virginica và Iris 
versicolor. Mỗi class có 50 bông hoa với dữ liệu là bốn thông tin: chiều dài, chiều rộng đài 
hoa (sepal), và chiều dài, chiều rộng cánh hoa (petal). Hình 9.2 là ví dụ về hình ảnh của ba 
loại hoa. Chú ý rằng các điểm dữ liệu không phải là các bức ảnh mà chỉ là một vector đặc 
trưng bốn chiếu gồm bốn thông tin ở trên. 


9.3.2 Thí nghiệm 


Trong phần này, chúng ta sẽ tách 150 điểm dữ liệu trong Iris flower dataset ra thành hai tập 
huấn luyện và kiểm thử. KNN sẽ dựa vào trông tin trong tập huấn luyện để dự đoán xem 
mỗi dữ liệu trong tập kiểm thử tương ứng với loại hoa nào. Dữ liệu được dự đoán này sẽ 
được đối chiếu với dữ liệu thật để đánh giá hiệu quả của KNN. 


Trước tiên, chúng ta cần khai báo vài thư viện. Iris flower dataset có sẵn trong thư viện 
scikit-learn. 


from __future__ import print, function 

import numpy as np 

from sklearn import neighbors, datasets 

from sklearn.model selection import train test split # for splitting data 
from sklearn.metrics import accuracy score 4 for evaluating results 


Tiếp theo, ta sẽ load co sở dữ liệu này và chon ra ngẫu nhiên 130 mẫu làm test set, 20 màu 
còn lại được dùng làm training set. 
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np.random.seed(7) 


iris = datasets.load iris() 
iris X = iris.data 
iris y = iris.target 


print('Labels:', np.unique (iris y)) 


# split train and test 
X train, X test, y train, y test - train test split(iris X, iris y, test size-130) 
print('Train size:', X train.shape[0], ', test size:', X test.shape[0]) 


Labels: [0 1 2] 
Train size: 20 , test size: 130 


Dòng np.random.seed(7) để đảm bảo rằng khi các bạn chạy lại các đoạn code này cũng nhận 
được kết quả tương tự. Có thể thay 7 bằng một số tự nhiên bất kỳ 32 bit. 


Kết quả với INN 


Tới đây, ta trực tiếp sử dụng thư viện scikit-learn cho KNN. Xét ví dụ đầu tiên với K = 1. 


model = neighbors.KNeighborsClassifier(n neighbors = 1, p = 2) 
model.fit(X_train, y_train) 
y_pred = model.predict (X_test) 


oo 


print ("Accuracy of 1NN: $.2f $$" %(100*accuracy_score(y_test, y pred))) 


Kết quả: 


Accuracy of 1NN: 92.31 $ 


Kết quả thu được là 92.3196 (tỉ lệ các mẫu được phân loai chính xác). Ó dáy, n_neighbors = 1 
chỉ ra rằng ta chỉ lấy một điểm gần nhất, túc K = 1, p = 2 chính là / norm ta đã chon dé 
tính khoảng cách. Ban đọc có thể thử với p = 1 tương ứng với khoảng cách /, norm. 


Kết quả với 7NN 


Như đã dé cập, INN rất dễ gây ra hiện tượng overfitting. Dé giảm thiểu việc này, ta có thể 
tăng lượng điểm lân cận lên, ví dụ bảy điểm, và xem xét trong bảy điểm gần nhất, đa số 
chúng thuộc vào class nào. 


model = neighbors.KNeighborsClassifier(n neighbors = 7, p = 2) 
model.fit(X train, y train) 
y. pred = model.predict (X test) 


print ("Accuracy of 7NN with major voting: $.2f $$" £(100*accuracy score(y test, 
$ y pred))) 
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Két quá: 


o 


Accuracy of 7NN with major voting: 93.85 % 


Ta nhân tháy ràng dó chính xác dá táng lên khi ta du doán dya trên nhiéu lân cân hon. 
Đánh trọng só cho các điểm lân cận 


Trong kỹ thuật major voting bên trên, mỗi trong bảy điểm gần nhất được coi là có vai trò 
như nhau và giá trị lá phiếu của mỗi điểm này là như nhau. Như thế có thể không công 
bằng, vì những điểm gần hơn cần có trọng số cao hơn. Vì vậy, ta sẽ đánh trọng số khác 
nhau cho mỗi trong bảy điểm gần nhất này. Cách đánh trọng số phải thoải mãn điều kiện là 
một điểm càng gần điểm kiểm thử phải được đánh trọng số càng cao. Cách đơn giản nhất 
là lấy nghịch đảo của khoảng cách này. Trong trường hợp test data trùng uới một điểm dữ 
liệu trong training data, túc khoảng cách bằng 0, ta lấu luôn đầu ra của điểm training data. 


Scikit-learn giúp chúng ta đơn giản hóa việc này bằng cách gán thuộc tính weights = ' 
distance”. (Giá trị mặc định của weights là 'uniform', tương ứng với việc coi tất cả các điểm 
lân cận có giá trị như nhau như ở trên). 


model = neighbors.KNeighborsClassifier(n neighbors = 7, p = 2, weights = ’distance’ ) 
model.fit(X train, y train) 
y. pred = model.predict (X test) 


o 


print ("Accuracy of 7NN (1/distance weights): %.2f %%"(100*accuracy_ score(y test, 
y_pred))) 


Két quá: 


Accuracy of INN (1/distance weights): 94.62 % 


Độ chính xác tiếp tục được tăng lên. 
K-nearest neighbors với trọng số tự định nghĩa 


Ngoài 2 phương pháp đánh trọng số weights = 'uniform' và weights = 'distance' ở trên, 
seikit-learn còn cung cấp cho chúng ta một cách để đánh trọng số một cách tùy chọn. Ví dụ, 
một cách đánh trọng số phổ biến khác thường được dùng là 


—||z — x:ll2 
. (EE 5 2 


trong đó w; là trọng số của điểm gần thứ i (x;) của điểm dữ liệu dang xét z, ø là một só 
dương. Hàm số này cũng thỏa mãn điều kiện điểm càng gần x thì trọng số càng cao (cao 
nhất bằng 1). Với hàm số này, chúng ta có thể lập trình như sau: 


Machine Learning cơ bản https: // machinelearningcoban. com 


CHUONG 9. K-NEAREST NEIGHBORS 108 


def myweight (distances): 
sigma2 = .4 # we can change this number 
return np.exp(-distances**2/sigma2) 


model = neighbors.KNeighborsClassifier(n neighbors = 7, p = 2, weights = myweight) 
model.fit(X train, y train) 
y. pred = model.predict (X test) 


print("Accuracy of 7NN (customized weights): $.2f $$ 
(100*accuracy score(y test, y pred))) 


Kết quả: 


o 


Accuracy of “NN (customized weights): 95.38 5 


Kết quả tiếp tục tăng lên một chút. Với từng bài toán, chúng ta có thể thay các thuộc tính 
của KNN bằng các giá trị khác nhau và chọn ra giá trị tốt nhất thông qua cross-validation. 


9.4 Thảo luận 
9.4.1 KNN cho Regression 


Với bài toán regression, chúng ta cũng hoàn toàn có thể sử dụng phương pháp tương tự: đầu 
ra của một điểm được xác định dựa trên đầu ra của các điểm lân cận và khoảng cách tới 
chúng. Giả sử xị,...,x là điểm lân cận của một điểm dữ liệu z với đầu ra tương ứng 
là y4,..., yk. Giả sử các trong số ứng với các lân cận này tính được là w1,..., wg. Kết quả 
dự đoán đầu ra của z có thể được xác định bởi 


10191 + 00292 +++ + WKWK 


(9.2) 
Warp sp 


Hinh 9.3 là một ví dụ vé KNN cho regression vói K — 5, sử dung hai cách đánh trong số 
khác nhau. Ta có thé tháy ráng weights - 'distance' có xu huóng gáy ra overfitting. 


9.4.2 Uu diém cúa KNN 
1. Độ phức tap tính toán của quá trình huấn luyện là bằng 0. 


2. Việc dự đoán kết quả của dữ liệu mới rất đơn giản (sau khi đã xác định được các điểm 
lân cận). 


3. Không cần giả sử về phân phối của các class. 
9.4.3 Nhược điểm của KNN 


1. KNN rất nhạy cảm với nhiễu khi K nhỏ. 
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KNeighborsRegressor (k = 5, weights = 'uniform') 


—— prediction 
e data 


0 KNeighbérsRegressér (k = 5, Weights = 'đistance') 5 


— prediction 
e data 


Hình 9.3: KNN cho bài toán Regression (Nguồn: Nearest neighbors regression—scikit-learn— 
https:// goo.gl/ 9VyBF3). 


2. Nhu dà nói, KNN là mót thuát toán mà moi tính toán déu nám ó kháu kiém thú. Trong 
đó việc tính khoảng cách tới tung điểm dữ liệu trong tập huấn luyện tốn rất nhiều thời 
gian, đặc biệt là với các cơ sở dữ liệu có số chiều lớn và có nhiều điểm dữ liệu. Với K 
càng lớn thì độ phức tạp cũng sẽ tăng lên. Ngoài ra, việc lưu toàn bộ dữ liệu trong bộ 
nhớ cũng ảnh hưởng tới hiệu năng của KNN. 


9.4.4 Đọc thêm 


1. Tutorial To Implement k-Nearest Neighbors in Python From Scratch (https: // goo.gl/ 
J78Qs0). 


2. Source code cho chương này có thé được tìm thay tai https: //goo.gl/asF58Q. 
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K-means clustering 


10.1 Giới thiệu 


Chúng ta đã làm quen với linear regression, một mô hình đơn giản trong supervised learning. 
Trong chương này, một mô hình đơn giản khác trong unsupervised learning sẽ được trình 
bày. Thuật toán này có tên là phân nhóm K-means (K -means clustering). 


Trong K-means clustering, chúng ta không biết nhãn của từng điểm dữ liệu. Mục đích là 
làm thể nào để phân dữ liệu thành các cụm (cluster) khác nhau sao cho dit liệu trong cùng 
một cụm có những tính chất giống nhau. 


Ví dụ: Một công ty muốn tạo ra một chính sách ưu đãi cho những nhóm khách hàng khác 
nhau dựa trên sự tương tác giữa mỗi khách hàng với công ty đó (số năm là khách hàng: số 
tiền khách hàng đã chi trả cho công ty; độ tuổi; giới tính; thành phố; nghề nghiệp; v.v.). 
Giả sử công ty đó có rất nhiều dữ liệu của rất nhiều khách hàng nhưng chưa làm công việc 
phâm nhóm khách hàng. K-means clustering là một thuật toán có thể giúp thực hiện công 
việc này. Sau khi đã phân ra được từng nhóm, nhân viên công ty đó có thể lựa chọn ra một 
vài khách hàng trong mỗi nhóm để quyết định xem mỗi nhóm tương ứng với nhóm khách 
hàng nào. Phần việc cuối cùng này cần sự can thiệp của con người, nhưng lượng công việc 
đã được rút gọn đi rất nhiều. 


Một định nghĩa đơn giản của nhóm/cum (cluster) là tập hợp các điểm có các vector đặc 
trưng gan nhau. Việc đo khoảng cách giữa các vector thường được thực hiện dựa trên norm, 
trong đó khoảng cách Euclid, tức /; norm, được sử dung phổ biến hơn cả. 


Hình 10.1 là một ví du về dữ liệu được phân vào ba cluster!. Giả sử mỗi cluster có một điểm 
đại diện (centroid) màu vàng, và nhóm của mỗi điểm được xác định qua việc nó gần với 
centroid nào nhất trong ba centroid. Tới đây, chúng ta có một bài toán thú vi: Trên một vùng 


Để cho thống nhất, từ cluster sẽ được sử dụng thay thế cho nhóm/cum. Các thuật ngữ tiếng Anh từ đây cũng 
được sử dụng thường xuyên hơn. 
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Hình 10.1: Ví dụ với ba cum dữ 
liệu trong không gian hai chiéu. 


biển hành vuóng lớn có ba đảo hinh vuóng, tam giác, và tròn màu vàng như trón Hinh 10.1. 
Một điểm trên biển được gọi là thuộc lãnh hải của một đảo nếu nó nằm gần đảo này hơn so 
vói hai dao kia. Hay xác định ranh giới lãnh hỏi giữa các dao. 


Cũng trên Hình 10.1, các vùng với màu nền khác nhau biểu diễn lãnh hải của mỗi đảo. 
Chúng ta thấy rằng đường phân định giữa các lãnh hải là các đường thẳng. Chính xác hơn, 
chúng là các đường trung trực của các cặp đảo gần nhau. Vì vậy, lãnh hải của một dáo sẽ là 
một hình đa giác. Cách phân chia dựa trên khoảng cách tới điểm gần nhất này trong toán 
học được goi là Voronoi diagram?. Trong không gian ba chiều, lấy ví dụ là các hành tinh, 
lãnh không của mỗi hành tinh sẽ là một da diện. Trong không gian nhiều chiều hơn, chúng 
ta sẽ có những siêu đa điện (hyperpolygon). 


Quay lại với bài toán phân nhóm và cụ thể là thuật toán K-means clustering, chúng ta cùng 
thảo luận cơ sở toán học, cách xây dựng và tối uu hàm mát mát của nó. 


10.2 Phân tích toán học 


Mục đích cuối cùng của thuật toán K-means clustering là từ dữ liệu đầu vào và số lượng 
nhóm cần tìm, hãy xác định centroid của mỗi nhóm và phân các điểm dữ liệu vào các nhóm 
tương ứng. Giả sử thêm rằng mỗi điểm dữ liệu chỉ thuộc vào đúng một nhóm. 


RAXN 


Giả sử N điểm dữ liệu trong training set được ghép lại thành X = [x1, X2, ..., Xy] € 
và K < N là só cluster được xác dinh trước. Ta cần tim các centroid m,,m»,...,mx € 


gpdx1 


và label của mỗi điểm dữ liệu. Ó đây, mỗi cluster được đại diễn bởi một label, thường lá một 
só tự nhiên từ 1 đến K. Nhắc lai rằng các điểm dữ liệu trong bài toán K-means clustering 
ban đầu không có label cụ thể, nhiệm vụ của ta là đi tìm label của chúng sao cho các điểm 
có cùng label nằm gần nhau, tạo thành một cluster. 


2 Vonoroi điagram- Wikipedia (https: // goo.gl/1ReCW8). 
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Với mỗi điểm dữ liệu x;, ta cần tim label y; = k của nó, ở đây k € {1,2,..., K}. Một kỹ thuật 
khác khác thường được dùng để biểu diễn label này có tên là one-hot coding. Mỗi label k được 
thay thế bằng một vector hàng y; € IR!*X- được gọi là label vector, trong đó tất cả các phần 
tử của y; bằng 0, ngoại trừ phan tử ở vị trí thứ k bằng 1. Cu thể, yj; = 0, Vj Æ k, Yik = 1. 
Khi chóng các vector y; lên nhau, ta được một ma trận label Y € RY**. Nhắc lại rằng yi; là 
phần tử hàng thứ i, cột thứ j của ma trận Y, và nó cũng chính là phần tử thứ j của vector 
yi. Ví dụ, nếu một điểm dữ liệu có label vector là [1,0,0,...,0] thì nó thuộc vào cluster thứ 
nhất, là |0,1,0,...,0] thì nó thuộc vào cluster thứ hai, v.v. Rang buộc của y; có thể viết 
dưới dạng toán học như sau: 


K 
yij € {0,1}, Vi, J; wi = 1, Vi (10.1) 
j=l 


10.2.1 Ham mát mát và bài toán tối ưu 


Nếu gọi m, € R? là centroid của mỗi cluster và thay thế tất cả các điểm được phân vào 
cluster này bởi my, một điểm dữ liệu x; được phân vào cluster k sẽ bị sai số là (x; — m4). 
Chúng ta mong muốn vector sai số nay gần với vector không, tức x; gần với my. Một dai 
lượng đơn giản giúp đo khoảng cách giữa hai điểm là (bình phương) khoảng cách Euclid 
|x: — m,||§. Hon nữa, vi x; được phân vào cluster k nên  = 1, = 0, Vj Æ k. Khi đó, 
biểu thức khoảng cách Euclid có thể được viết lại thành 


K 
Ix: — mall? = „||x¿ — mall = X` ys lx; — mill (10.2) 
j=l 
Như vậy, sai số trung bình cho toàn bộ dữ liệu sẽ là: 

AE: 
£(Y,M)= N 3 wallxi x mj!|3 (10.3) 

¿=1 j=l 
Trong đó M = [m;, m;,..., mx] € JR“*X là ma tran tạo bởi K centroid. Ham mát mát 


trong bài toán K-means clustering là C(Y, M) với ràng buộc như được nêu trong (10.1). 
Tóm lại, bài toán cần tối uu là 


N K 
1 
Y,M =argmin — 5 1 valle — 05 E 
VM N Vil illo 


i=1 j=l 


P (10.4) 
thoả mãn: y; € {0,1}, Vij; So yy =1, Vi 
j=1 


10.2.2 Thuật toán tối uu hàm mát mát 


Bài toán (10.4) là một bài toán khó tìm điển tối ưu vì nó có thêm các điều kiện ràng buộc. 
Bài toán này thuộc loại miz-integer programming (điều kiện biến là số nguyên) - là loại rat 
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khó tim nghiệm tối ưu toàn cuc. Tuy nhiên, trong một só trường hop chúng ta vẫn có thể 
tìm được phương pháp để tìm được nghiệm gần đúng. Một kỹ thuật đơn giản và phổ biến 
để giải bài toán (10.4) là xen kẽ giải Y và M khi biến còn lại được có định tới khi hàm mất 
mát hội tụ. Chúng ta sẽ lần lượt giải quyết hai bài toán sau. 


Có định M, tìm Y 


Giả sử dá tìm được các centroid, hãy tìm các label vector dé hàm mát mát đạt 
giá trị nhỏ nhất. Điều này tương đương với việc tim cluster cho mỗi điểm dữ liệu. Khi 
các centroid là có định, bài toán tim label vector cho toàn bộ dữ liệu có thé được chia nhỏ 
thành bài toán tìm label vector cho từng điểm dí liệu x; nhu sau: 


K 
y; = argmin — $ Y val- m;[5 
Yi AN 1 
: (10.5) 
thoả mãn: yj; € {0,1}, Vi, 7; 2 5 =1, Vi 
j=l 


Vì chỉ có một phan tử của label vector y; bằng 1 nên bài toán (10.5) chính là bai toán đi 
tim centroid gần điểm x; nhất: j = argmin, ||x; — m, |. 


Vì ||x; — m;||2 chính là bình phương khoảng cách Euclid từ điểm x; tới centroid m;, ta có 
thể kết luận rằng mỗi điểm x; thuộc vào cluster có centroid gần nó nhất! Từ đó ta 
có thể suy ra label vector của từng điểm dữ liệu. 


Có định Y, tìm M 


Giả sử đã tim được cluster cho từng điểm, hãy tim centroid mới cho mỗi cluster 
để hàm mát mát dat giá trị nhỏ nhất. 


Một khi label vector cho từng điểm dữ liệu đã được xác định, bài toán tìm centroid cho mỗi 
cluster được rút gọn thành 

N 

= Đảo li P SY yijllx; — my!|3. (10.6) 

i=l 
Tới đây, ta có thể tìm nghiệm bằng phương pháp giải phương trình đạo hàm bằng không, vì 
hàm cần tối ưu là một hàm liên tuc và có dao hàm xác dinh tai mọi điểm m;. Đặt /(m,) là 
hàm bên trong dấu argmin trong 10.6, ta cần a mE trinh 


2 2 i=1 YijXi 
Vm,lm,) = N Y z„(m, =0 mj Lw- Ems ubi an » N (10.7) 


i-i i= um Vij 


Nếu dé ý một chút, chúng ta sẽ thấy rằng máu só chính là phép đếm số lượng các điểm dá 
liệu trong cluster j. Còn tử số chính là tổng các điểm dü liệu trong cluster j. Nói cách khác, 
m; là trung bình cộng (mean) của các điểm trong cluster j. 


Tên gọi K-means clustering cũng xuất phát từ đây. 
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10.2.3 Tóm tát thuát toán 


Tới đây, ta có thể tóm tắt thuật toán K-means clustering như sau. 


Thuật toán 10.1: k-means clustering 


Đầu vào: Ma trận dữ liệu X € REN và só lượng cluster cần tim K < N. 
Đầu ra: Ma trận các centroid M € RE và ma trận label Y € RN**. 


1. Chon K điểm bất ky trong training set làm các centroid ban đầu. 


. Phân mỗi điểm đữ liệu vào cluster có centroid gán nó nhất. 

. Nếu viéc phân nhóm di liệu vào từng cluster ở bước 2 không thay đổi so vói ving 
lặp trước nó thà ta dừng thuật toán. 

. Cập nhật centroid cho từng cluster bằng cách lấu trung binh cộng của tất các các 
điểm dit liệu đã được gán vào cluster đó sau bước 2. 

. Quay lgi bước 2. 


Thuật toán này được đảm bảo sẽ hội tu sau một số hữu hạn vòng lặp. Thật vậy, vì hàm mát 
mát là một số dương và sau mỗi bước 2 hoặc 3, giá trị của hàm mát mát bị giảm đi. Vậy, 
dãy số biểu diễn giá trị của hàm mất mát sau mỗi bước là một đại lượng không tăng và bị 
chặn dưới, điều này chỉ ra rằng dãy số này phải hội tụ. Để ý thêm nữa, số lượng cách phân 
nhóm cho toàn bộ đữ liệu là hữu hạn (khi số cluster là cố định) nên đến một lúc nào đó, 
hàm mát mát sé không thé thay đổi, và chúng ta có thể dừng thuật toán tại day. 


Nếu tồn tại một cluster không chứa điểm nào, mẫu số trong (10.7) sẽ bằng không, và phép 
chia sẽ không thực hiện được. Vì vậy, điểm bất kỳ trong training set được chọn làm các 
centroid ban đầu ở Bước 1. để đảm bảo rằng mỗi cluster có ít nhất một điểm. Trong quá 
trình huấn luyện, nếu tồn tại một cluster không chứa điểm nào, có hai cách giải quyết. Cách 
thứ nhất là bỏ đi cluster đó và giảm đi một. Cách thứ hai là thay centroid của cluster đó 
bằng một điểm bất kỳ trong training set, chàng hạn, điểm xa centroid hiện tại của nó nhất. 


10.3 Ví dụ trên Python 
10.3.1 Giới thiệu bài toán 


Chúng ta sẽ làm một ví dụ đơn giản. Trước hết, ta tạo centroid và dữ liệu cho từng cluster 
bằng cách lấy mẫu theo phân phối chuẩn có kỳ vọng là centroid của cluster đó và ma trận 
hiệp phương sai là ma trận đơn vi. Ỏ đây, hàm cdist trong scipy.spatial.distance được dùng 
để tính khoảng cách giữa các cặp điểm trong hai tập hợp một cách hiệu qua’. 


Dữ liệu được tạo bằng cách lấy ngẫu nhiên 500 điểm cho mỗi cluster theo phân phối chuẩn 


có kỳ vọng lần lượt là (2, 2), (8, 3) và (3, 6), ma trận hiệp phương sai giống nhau và là 
ma trận đơn vi. 


3 việc xây dựng hàm số này không sử dụng thư viện đã được thảo luận kỹ trong Chương 9 
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from __future__ import print, function 
import numpy as np 

import matplotlib.pyplot as plt 

from scipy.spatial.distance import cdist 
import random 

np.random.seed(18) 


means = [[2, 2], [8, 3], [3, 61] 

cov = [[1, 0], IO, 11] 

N = 500 

X0 = np.random.multivariate normal(means[0], cov, N) 
X1 = np.random.multivariate normal(means[1], cov, N) 
X2 = np.random.multivariate normal(means[2], cov, N) 


X = np.concatenate((X0, X1, X2), axis = 0) 
K = 3 # 3 clusters 
original label = np.asarray([0]*N + [1]*N + [2]*N).T 


10.3.2 Các hàm số cần thiết cho K-means clustering 


Trước khi viết thuật toán chính K-means clustering, ta cần viết một số hàm phụ trợ: 


1. kmeans_init_centroids để khởi tạo các centroids ban đầu. 
2. kmeans_asign_labels dé tim label mới cho các điểm khi cố định các centroid. 
3. kmeans update centroids để cập nhật các centroid khi biết label của mỗi điểm dữ liệu. 


4. has_converged để kiểm tra điều kiện dừng của thuật toán. 


def kmeans_init_centroids(X, k): 
# randomly pick k rows of X as initial centroids 
return X[np.random.choice (X.shape[0], k, replace=False)] 


def kmeans_assign_labels(X, centroids): 
# calculate pairwise distances btw data and centroids 


D = cdist(X, centroids) 
# return index of the closest centroid 
return np.argmin(D, axis = 1) 


def has_converged (centroids, new_centroids): 
# return True if two sets of centroids are the same 
return (set([tuple(a) for a in centroids]) -- 
set([tuple(a) for a in new centroids])) 


def kmeans update centroids(X, labels, K): 
centroids = np.zeros((K, X.shape[1])) 
for k in range(K): 
# collect all points that are assigned to the k-th cluster 
Xk = X[labels == k, :] 
centroids[k,:] = np.mean(Xk, axis = 0) 4 then take average 
return centroids 
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Phần chính của K-means clustering: 


def kmeans(X, K): 
centroids = [kmeans_init_centroids(X, K) ] 
labels = [] 
it = 0 
while True: 
labels.append (kmeans_assign_labels(X, centroids [-1])) 
=1], K) 


new_centroids = kmeans_update_centroids(X, labels[ 

if has converged (centroids[-l], new centroids): 
break 

centroids.append (new centroids) 

it += 1 


return (centroids, labels, it) 


Áp dung thuật toán vừa viết vào dữ liệu ban đầu, hiển thị kết quả cuối cùng. 


(centroids, labels, it) = kmeans(X, K) 
print ("Centers found by our algorithm:\n’, centroids[-1]) 
kmeans_display(X, labels[-1]) 


Két quá: 


Centers found by our algorithm: 
[[ 1.9834967 1.96588127] 
[ 3.02702878 5.95686115] 
[ 8.07476866 3.01494931]] 


Hình 10.2 minh hoạ thuật toán K-means clustering trên tập dữ liệu này sau một số vòng 
lặp. Ta nhận thấy rằng centroid và các vùng lãnh thổ. của chúng thay đổi qua các vòng lặp 
và hội tụ sau chỉ sáu vòng lặp. Từ kết quả này chúng ta thấy rằng thuật toán K-means 
clustering làm việc khá thành công, các centroid tìm được gần với các centroid ban đầu, 
và các nhóm dữ liệu được phân ra gần như hoàn hảo (một vài điểm gần ranh giới giữa hai 
cluster xanh có thể đã lẫn vào nhau). 


10.3.3 Kết quả tìm được bằng thư viện scikit-learn 


Để kiểm tra thêm, chúng ta hãy so sánh kết quả trên với kết quả thu được bằng cách sử 
dụng thư viện scikit—learn. 


from sklearn.cluster import KMeans 

model = KMeans(n clusters-3, random state-0).fit(X) 
print('Centers found by scikit-learn:') 

print (model.cluster centers ) 

pred label - model.predict (X) 

kmeans display(X, pred label) 
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iteration: 1/6 TS iteration: 2/6 iteration: 3/6 
9 7 


e 
Lo, 0, 


(b) 


Hinh 10.2: Thuật toán K-means clustering qua các vòng lặp. 


Kết quả: 


Centroids found by scikit-learn: 
[[ 8.0410628 3.02094748] 
[ 2.99357611 6.03605255] 
[ 1.97634981 2.01123694]] 


Ta nhận thấy rằng các centroid tìm được cũng rất gần với kết quả kỳ vọng. Từ các centroid 
này, cluster của mỗi điểm dữ liệu cũng dễ dàng được suy ra. 


Tiếp theo, chúng ta cùng xem xét ba ứng dụng đơn giản của -means clustering. 
10.4 Phân nhóm chữ số viết tay 
10.4.1 Bộ cơ sở dữ liệu MNIST 


MNIST [LCB10] là bộ cơ sở dí liệu lớn nhất vé chữ số viết tay và được sử dung trong hầu 
hết các thuật toán phân lớp hình ảnh. MNIST bao gồm hai tập con: training set có tổng 
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Hinh 10. 3: 200 
mẫu ngẫu nhiên 
trong bộ cơ só dữ 
liệu MNIST. 


Hình 10.4: Ví dụ về 
o] chữ sô 7 và giá tri 
e] các pixel cüa nó. 
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cộng 60 nghìn mẫu khác nhau về chữ số viết tay từ 0 đến 9, test set có 10 nghìn mẫu khác 
nhau. Tất cả đều dà được gán nhãn. Hinh 10.3 hiển thị 200 mẫu được trích ra tit MNIST. 


Mỗi bức ảnh là một ảnh xám (chỉ có một channel), có kích thước 28 x 28 pixel (tổng cộng 
784 pixel). Mỗi pixel mang một giá trị là một số tự nhiên từ 0 đến 255. Các pixel màu đen 
có giá trị bằng không, các pixel càng trắng thì có giá trị càng cao, nhưng không quá 255. 
Hình 10.4 là một ví dụ về chữ số 7 và giá trị các pixel của nó. Vi muc dich hiển thị ma trận 
pixel ở bên phải, búc ảnh kích thước 28 x 28 ban dau đã được resize vé kích thước 14 x 14. 
10.4.2 Bài toán phân nhóm giả định 


Bài toán: Giả sử rằng ta không biết nhãn của các chữ số này, hãy phân các bức 
ảnh gần giống nhau về một nhóm. 


Bài toán này có thể được giải quyết bằng K-means clustering. 


Mỗi bức ảnh được coi là một điểm dữ liệu. Vector đặc trưng của một bức ảnh đơn giản là 
vector cột cỡ 784 x 1 thu được bằng cách chóng các cột của bức ảnh ban đầu lên nhau. 


10.4.3 Làm việc trên Python 


Để tải về MNIST, chúng ta có thể dùng trực tiếp một hàm số trong scikit-learn như sau. 
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from __future__ import print, function 
import numpy as np 
from sklearn.datasets import fetch mldata 


data dir = '../../data' # path to your data folder 

mnist = fetch mldata('MNIST original”, data home-data dir) 
print("Shape of minst data:", mnist.data.shape) 

Két quà: 


Shape of minst data: (70000, 784) 


shape của ma trận dữ liệu mnist.data là (70000, 784) tức có 70000 mau, mỗi mẫu có kích 
thước 784. Chú y rằng trong scikit-learn, mỗi điểm dữ liệu thường được lưu dưới dang một 
vector hàng. Tiếp theo, chúng ta lấy ra ngẫu nhiên 10000 mẫu và thực hiện K-means cluster 
trên tập con này. 


from sklearn.cluster import KMeans 

from sklearn.neighbors import NearestNeighbors 

K = 10 # number of clusters 

N = 10000 

X = mnist.data[np.random.choice (mnist.data.shape[0], N)] 
kmeans = KMeans (n clusters-K).fit(X) 

pred label - kmeans.predict (X) 


Sau khi thuc hiện đoạn code trên, các centroid được lưu trong bién kmeans.cluster centers , 
label cúa mói diém dí liéu dugc luu trong bién pred label. Hinh 10.5 hién thi các centroid 
tìm được và 20 màu ngẫu nhiên được phân vào mỗi cluster tương ứng. Mỗi hàng tương ứng 
với một cluster, cột đầu tiên có nền xanh bên trái là các centroid tìm được (màu đỏ hơn là 
các pixel có giá trị cao hơn). Chúng ta thấy rằng các centroid đều hoặc là giống với một chữ 
số nào đó, hoặc là kết hợp của hai/ba chữ số nào đó. Ví dụ, centroid ở hàng thứ 4 là sự kết 
hợp của các số 4, 7, 9; ở hàng thứ 7 là kết hợp của chữ số 7, 8 và 9. 


Quan sát thấy các bức ảnh lấy ra ngẫu nhiên từ mỗi cluster trông không thực sự giống nhau. 
Lý do có thể là những bức ảnh này ở xa các centroid mặc dù centroid đó đã là gần nhất. 
Như vậy K-means clustering làm việc chưa thực sự tốt trong trường hợp này. Tuy nhiên, 
chúng ta vẫn có thể khai thác một số thông tin hữu ích sau khi thực hiện thuật toán này. 
Thay vì chọn ngẫu nhiên các bức ảnh trong mỗi cluster, ta chọn 20 bức ảnh gần centroid 
của mỗi cluster nhất, vì càng gần centroid thì độ tin cậy càng cao. Hãy quan sát Hình 10.6. 
Ta có thể thấy dữ liệu trong mỗi hàng khá giống nhau và giống với centroid ở cột đầu tiên 
bên trái. Có một vài quan sát thú vị có thể rút ra từ đây: 


1. Có hai kiểu viết chữ số 1-thàng và chéo. Và K-means clustering nghĩ rằng đó là hai chữ 
số khác nhau. Điều này là dễ hiểu vì K-means clustering là một thuật toán unsupervised 
learning. Nếu có sự can thiệp của con người, chúng có thể được nhóm lại thành một. 


Machine Learning cơ bản https: // machinelearningcoban. com 


CHUONG 10. K-MEANS CLUSTERING 


120 


ioio 0 O|O O|OJO 0|D|O|O|0|0|O O|OJO| 
212 llas 1/1/4131 
2212 21322281222 /3212293/212/2] 
dal 44724471219 71914] 
Aa ep Sa rails ha talla ra 
| |21 © @| 6| ejb k| e| 2&6 6 6| b] o |a. &" to 
71717172719 9 7/8 717[H> 49/58 59] 
<|6|s|é|Z|0|6|é|é|z| 6|é|Lé|0|e|o|o|é|2|é] 
4 914 4 u|u|2|d M «|a |H|a qulalaly ya 
[59513153153 1315 3315/5153 5/3] 5/5) 


|0|0|0|0/0,0|0/0/0|0|0|0|5|0|0|0|O  0|O]O| 
tii les 
212122922122 2/22/232/12212%2 


Hinh 10.5: Hién thi 
các centroid (cót dáu) 
và 20 điểm ngẫu nhiên 
được phân vào từng 
cluster. Các chữ số trên 
mỗi hàng thuộc vào 
cùng một cluster. 


Hình 10.6: Hiển thị 
các centroid (cột đâu) 
và 20 điểm gan centroid 


nhất được phân vào 
từng cluster. Các chữ 
sô trên mỗi hàng thuộc 
vào cùng một cluster. 
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2, Ő hàng thứ chín, chữ só 4 và 9 được phân vào cùng một cluster. Su thật là hai chữ só 
này khá giống nhau. Điều tương tự xảy ra đối với hàng thứ bảy với các chữ só 7, 8, 9. 
K-means clustering có thể được áp dụng để tiếp tục phân nhỏ các cluster đó. 


Trong clustering có một kỹ thuật thường được sử dụng là clustering phân tầng (hierarchical 
clustering [Ble08]). Có hai loại hierachical clustering: 


e Agglomerative tức “đi từ dưới lên”. Ban đầu coi một vài điểm dữ liệu gần nhau là một 


cluster, sau đó các cặp cluster gần giống nhau được gộp lại làm một cluster lớn hơn. Ỏ 
đây, sự giống nhau của hai cluster có thể được xác định dựa trên khoảng cách giữa hai 
centroid tương ứng. Cụ thể hơn, ban đầu ta chọn là một số lớn gần bằng số điểm dữ 
liệu. Sau khi thực hiện K-means clustering lần đầu, các cluster gần nhau được ghép lại 
thành một cluster. Sau bước này, ta được một số lượng cluster nhỏ hơn. Ta tiếp tục làm 
K-means clustering với điểm khói tao là centroid của các nhóm vừa thu được. Lap lại 
quá trình này đến khi nhận được kết quả chấp nhận được. 


e Divisive tức “đi từ trên xuống”. Ban đầu coi tất cả các điểm dữ liệu thuộc cùng một 
cluster, sau đó chia nhỏ mỗi cluster bằng một thuật toán clustering nào đó. Việc này có 
thể được thực hiện bằng cách ban đầu chọn một số K nhỏ làm số lượng cluster, sau đó 
trong mỗi cluster thu được, ta tiếp tục làm K-means clustering. Tiếp tục quá trinh cho 
tới khi được kết quả chấp nhận được. 
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Hình 10.7: Ánh: Trong Vũ (https: 
// goo.gl/ 9D8aXW ) . 


10.5 Tách vát thé trong ánh 


K-means clustering có thể được áp dụng vào một bài toán xử lý ánh khác, bài toán tách vát 
thể trong ánh (object segmentation). Cho bức ảnh nhu trong Hinh 10.7, hãy xây dựng một 
thuát toán tu dóng nhán ra vüng khuón mát và tách nó ra. 


Büc ành có ba màu chü dao: hóng ó khán và mói; den ó mát, tóc, và hàu cánh; màu da ó 
vüng cón lai cüa khuón mát. Ánh này khá ró nét và các vüng dugc phàn biét ró ràng bói 
màu sác nén chúng ta có thé áp dung thuát toán K-means clustering. Thuát toán này sé 
phân các pixel ảnh thành ba cluster, cluster chứa phần khuôn mặt có thé được chon, có thể 
báng tay. 


Day là một bức ảnh màu, mỗi điểm ảnh sẽ được biểu diễn bởi ba giá trị tương ứng với màu 
Red, Green, và Blue, mỗi giá trị này cũng là một số tự nhiên không vượt quá 255. Nếu coi 
mỗi pixel là một điểm dữ liệu mô tả bởi một vector ba chiều chứa các giá trị này, sau đó áp 
dụng thuật toán K-means clustering, chúng ta có thể có kết quả mong muốn. 


10.5.1 Làm việc trên Python 


Khai báo thư viện và load bức ảnh: 


import matplotlib.image as mpimg 
import matplotlib.pyplot as plt 
import numpy as np 

from sklearn.cluster import KMeans 
img = mpimg.imread('girl3.jpg') 
plt.imshow (img) 


imgplot = plt.imshow (img) 
plt.axis('off') 
plt.show() 


Bién dói búc ánh thành 1 ma trán mà mói hàng là 1 pixel vói 3 giá tri màu 


X = img.reshape((img.shape[0]*img.shape[1], img.shape[2]) ) 
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Hinh 10.8: Két quả nhận được sau 
khi thực hiện K-means clustering 
cho các điểm dữ liệu. Có ba clus- 
ter tương ứng với ba màu đỏ, hồng, 
đen. 


Phần còn lai của source code có thể được tìm thấy tại https: //g00.gl/ Tn6Gec. 
Sau khi tìm được các cluster, giá trị của mỗi pixel được thay bằng giá trị của centroid tương 
ứng. Kết quả được minh hoạ trên Hinh 10.8. Ba màu đỏ, đen, và màu da đã được phân nhóm 


khá thành công. Và khuôn mặt có thể được tách ra từ phần có màu da (và vùng bên trong 
nó). Như vậy, K-means clustering tạo ra một kết quả chấp nhận được cho bài toán này. 


10.6 Image Compression (nén ảnh và nén dữ liệu nói chung) 


Trước hết, xét đoạn code dưới day. 


bor K im [5b, 10, 15, 2015 
kmeans - KMeans (n clusters-K).fit(X) 
label = kmeans.predict (X) 


img4 = np.zeros like(X) 
# replace each pixel by its centroid 
for k in range(K): 
img4[label == k] = kmeans.cluster centroids [k] 
# reshape and display output image 
img5 = img4.reshape ( (img.shape[0], img.shape[1], img.shape[2])) 
plt.imshow(img5, interpolation-'nearest') 
plt.axis('off') 
plt.show() 


Giải thích: Dé ý thấy rằng mỗi một pixel có thé nhận một trong số 256? — 16, 777,216 (16 
triệu màu). Đây là một số rất lớn (tương đương với 24 bit cho một điểm ảnh). Nếu ta muốn 
lưu mỗi điểm ảnh với một số bit nhỏ hơn và chấp nhận mất dữ liệu ở một mức nào đó, 
K-means clustering là một giải pháp đơn giản cho việc này. Trong bài toán segmentation 
phía trên, có ba cluster, và mỗi một điểm ảnh sau khi xử lý sẽ được biểu diễn bởi một số 
tương ứng với một cluster. Tuy nhiên, chất lượng bức ảnh rõ ràng đã giảm đi nhiều. Trong 
đoạn code trên đây, ta đã làm một thí nghiệm nhỏ với số lượng cluster được tăng lên 5, 10, 
15, 20. Sau khi tìm được centroid cho mỗi cluster, giá trị của một điểm ảnh được thay bằng 
giá trị của centroid tương ứng. Kết quả được cho trên Hình 10.9. Ta có thể quan sát thấy 
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K=15 K = 20 


Hinh 10.9: Chat lượng nén ảnh với số lượng cluster khác nhau. 


rằng khi số lượng cluster tăng lên, chất lượng bức ảnh đã được cải thiện. Để nén bức ảnh 
này, ta chỉ cần lưu K centroid tim được va label của mỗi điểm ảnh. 


10.7 Thảo luận 


10.7.1 Han chế của K-means clustering 


e Số lượng cluster cần được xác định trước. Trong thực tế, nhiều trường hợp chúng 
ta không xác định được giá trị này. Bạn đọc có thể tham khảo một cách giúp xác định 
giá trị K này có tên là elbow method (https:// goo.gl/ euYhpK ). 


e Nghiém cuói cüng phu thuóc vào các centroid dugc khói tao ban dàu. Trong 
thuát toán này, hàm khói tao kmeans init centroids chon ngáu nhién K diém tit tàp dit 
liệu làm các centroid ban đầu. Thêm nữa, thuật toán K-means clustering không đảm 
bảo tìm được nghiệm tối ưu toàn cục, nên nghiệm cuối cùng phụ thuộc rất nhiều vào 
các centroid được khởi tạo ban đầu. Hình 10.10 thể hiện các kết quả khác nhau khi các 
centroid được khởi tạo khác nhau. Ta cũng thấy rằng trường hợp (a) và (b) cho kết quả 
tốt, trong khi kết quả thu được ở trường hợp (c) không thực sự tốt. Một điểm nữa có thể 
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iteration: 8/8 iteration: 14/14 
y A 


iteration: 20/20 
Á T 
`: | 


10 


(a) (b) (c) 


Hinh 10.10: Các giá tri khói tao ban dáu khác nhau dán dén các nghiém khác nhau. 


rút ra là số lượng vòng lặp tới khi thuật toán hội tụ cũng khác nhau. Trường hop (a) và 
(b) cùng cho kết quả tốt nhưng (b) chạy trong thời gian gần gấp đôi. Một kỹ thuật giúp 
han chế nghiệm xấu như trường hợp (c) là chạy thuật toán K-means clustering nhiều lần 
với các centroid được khói tạo khác nhau và chọn ra lần chay cho giá trị hàm mát mát 
thấp nhất”. Ngoài ra, [KA04], Kmeans++ [AV07, BMV*12] cũng là một vài thuật toán 
nổi tiếng giúp chọn các centroid ban đầu. 


Các cluster cần có số lượng điểm gần bằng nhau. Hình 10.11a minh hoạ kết quả 
khi các cluster có số lượng điểm chênh lệch. Trong trường hợp này, nhiều điểm lẽ ra thuộc 
cluster xanh lam đã bị phân nhầm vào cluster xanh lục. 


Các cluster cần có dạng hình tròn (cầu) Khi các cluster vẫn tuân theo phân phối 
chuẩn nhưng ma trận hiệp phương sai không tỉ lệ với ma trận đơn vị, các cluster sẽ 
có dạng không phải là tròn (hoặc cầu trong không gian nhiều chiều). Khi đó, K-means 
clustering cũng không hoạt động hiệu quả. Lý do chính là vì K-means clustering quyết 
định cluster của một điểm dữ liệu dựa trên khoảng cách Euclid của nó tới các centroid. 
Trong trường hợp này, Gaussian mixture models (GMM) [Rey15] có thể cho kết quả tốt 
hơn”. Trong GMM, mỗi cluster được giả sử tuân theo một phân phối chuẩn với ma trận 
hiệp phương sai không nhất thiết tỉ lệ với ma trận đơn vị. Ngoài các centroid, các ma 
trận hiệp phương sai cũng là các biến cần tối ưu trong GMM. 


Khi một cluster bị bao bọc bởi một cluster khác Hình 10.12 là một ví dụ kinh điển 
về việc K-means clustering không thể phân cụm dữ liệu. Một cách tự nhiên, chúng ta sẽ 
phân dí liệu ra thành bốn cluster: mắt trái, mắt phải, miệng, xung quanh mặt. Nhưng 
vì mắt và miệng nằm trong khuôn mặt nén K-means clustering cho kết quả không chính 
xác. Với dữ liệu như trong ví du này, spectral clustering [VLO7,NJW02] sẽ cho kết quả tốt 
hơn. Spectral clustering cũng coi các điểm gần nhau tạo thành một cluster, nhưng không 
giả sử về một centroid chung cho cả cluster. Spectral clustering được thực hiện dựa trên 


^ KMeans-scikit-learn (https: // goo.gl/ 5Kav Vn). 


5 Đọc thêm: Gaussian mixture models- Wikipedia (https: // goo.gl/ GzdauR). 
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iteration: 17/17 iteration: 6/6 


(a) (b) 
Hình 10.11: K-means clustering hoạt động không thuc sự tốt trong trường hợp các cluster có 


sô lượng phần tử chênh lệch hoặc các cluster không có dạng hình tròn (cầu). 


Hình 10.12: Một ví dụ về việc 
K-means clustering phân nhóm 
sal. 


một đồ thị vô hướng với đỉnh là các điểm dữ liệu và cạnh được nối giữa các điểm gần 
nhau, mỗi cạnh được đánh trọng số là một hàm của khoảng cách giữa hai điểm. 


10.7.2 Các ứng dụng khác của K-means clustering 


Mặc dù có những han ché, K-means clustering vẫn cực kỳ quan trọng trong machine learning 
và là nền tảng cho nhiều thuật toán phức tạp khác. Dưới đây là một vài ứng dụng khác của 
k-means clustering. 


1. Cách thay mót diém dí liéu báng centroid tuong úng lá mót trong só các ky thuát có 
tên chung là Vector Quantization - VQ [AMO93]). Không chỉ trong nén dữ liệu, VQ còn 
được kết hợp với Bag-of-Words [LSP06] áp dụng rộng rãi trong các thuật toán xây dựng 
vector đặc trưng cho các bài toán phân loại. 
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2. Ngoài ra, VQ còn được áp dụng trong các bài toán tìm kiếm trong cơ sở dữ liệu lớn. 


Khi lượng điểm dữ liệu rất lớn, việc tìm kiếm trở nên cực kỳ quan trọng. Khó khăn 
chính của việc này là làm thế nào có thể tìm kiếm một cách nhanh chóng trong lượng 
dữ liệu khổng lồ đó. Ý tưởng cơ bản là sử dụng các thuật toán clustering để phân các 
điểm dữ liệu thành nhiều nhóm nhỏ và xấp xỉ mỗi điểm dữ liệu bằng centroid tương 
ứng. Khi tìm điểm gần nhất của một điểm truy van (query), thay vì tính khoảng cách 
giữa điểm truy vấn đó đến từng điểm trong cơ sở dữ liệu, ta sẽ chỉ cần tính khoảng 
cách từ điểm đó tới các centroid (số lượng nhỏ hơn). Sau đó trả về các điểm được 
phân vào centroid đó. Bạn đọc có thể đọc thêm các bài báo nổi tiếng gần đây về vấn 
đề này: Product Quantization [JDS11], Cartesian k-means [NF13, JDJ17], Composite 
Quantization [ZDW14], Additive Quantization [BL 14]. 


Source code cho chương này có thể được tim thấy tai https: // goo.gl/ Qg W5f2. 


10.7.3 Doc thém 


1. 


2. 


3. 


Clustering documents using k-means-scikit-learn (https: // goo.gl/ y4xsy2 ). 

Voronoi Diagram - Wikipedia (https: // goo. gl/ v8 WQEv). 

Cluster centroid initialization algorithm for K-means clustering (https: // goo.gl/ hBdody). 
Visualizing K-Means Clustering (https: // goo.gl/ ULbp UM). 


Visualizing K-Means Clustering - Standford (https: // goo. gl/ idzR2i). 
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Chương 11 


Naive Bayes classifier 


11.1 Naive Bayes classifier 


Xét các bài toán phân lớp với C class khác nhau. Thay vi tìm ra chính xác label của mỗi 
điểm dữ liệu x € R4, ta có thé đi tìm xác suất để đầu ra đó rơi vào mỗi class: p(y = c|x), 
hoặc viết gọn thành p(c|x). Biểu thức này được hiểu là xác suất để đầu ra là class c biết 
rằng đầu vào là vector x. Biểu thức này, nếu tính được, có thể giúp xác định class của mỗi 
điểm dữ liệu bằng cách chọn ra class có xác suất rơi vào cao nhất: 


c = argmax p(c|x) (11.1) 
c€{1,...,C} 


Biểu thức trong dấu argmax ở = (11.1) nhìn chung khó có cách tính trực tiếp. Thay vào đó, 
quy tắc Bayes thường được sử dụng: 


p(x|c)p(c) 
p(x) 


Dấu bằng thứ hai xảy ra theo quy tắc Bayes, dấu bằng thứ ba xảy ra vì p(x) ở mẫu số 
không phụ thuộc vào c. Tiếp tục quan sát, p(c) có thể được hiểu là xác suất để một điểm bát 
kỳ rơi vào class c. Nếu training set lớn, nó có thể được xác định bằng maximum likelihood 
estimation (MLE)-là tỉ lệ giữa số điểm thuộc class c và số điểm trong training set. Nếu 
training set nhỏ, giá trị này có thể được ước lượng bằng maximum a posteriori (MAP). Cách 
thứ nhất thường được sử dụng nhiều hơn. 


c = argmax p(c|x) = argmax = argmax p(x|c)p(c) (11.2) 


Thanh phần còn lai p(x|c), tức phân phối của các điểm dữ liệu trong class c, thường rất khó 
tính toán vì x là một biến ngẫu nhiên nhiều chiều. Để có thể ước lượng được phân phối đó, 
training set phải rất lớn. Để giúp cho việc tính toán được đơn giản, người ta thường giả sử 
rằng các thành phần của biến ngẫu nhiên x là độc lập với nhau khi đã biết c: 


p(x|c) = p(#1,#a,..., Tale) = [[p@ilo (11.3) 


i=1 
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Giả thiết các chiều của dữ liệu độc lập với nhau là quá chặt và trên thực tế, ít khi tim được 
dữ liệu mà các thành phần hoàn toàn độc lập với nhau. Tuy nhiên, giả thiết ngây tho (naive) 
này đôi khi mang lại những kết quả tốt bất ngờ. Giả thiết vé sự độc lập của các chiều dí 
liệu này được gọi là naive Bayes. Cách xác định label của dữ liệu dựa trên giả thiết này có 
tên là naive Bayes classifier (NBC). 


NBC, nhờ vào tính đơn giản một cách ngây thơ, có tóc độ huấn luyện và kiểm thử rất nhanh. 
Việc này giúp nó mang lại hiệu quả cao trong các bài toán large-scale. 


Ó bước huấn luyện, các phân phối p(c) và p(z;|e),š = 1,...,d sẽ được xác dinh dua vào dữ 
liệu huấn luyện. Việc xác định các giá trị này có thể có thể dựa vào MLE hoặc MAP. 


Ở bước kiểm thử, label của một điểm dữ liệu mới x được xác đỉnh bởi 
d 
c= argmax p(c) J [eelo (11.4) 
c€(1,...,C] ¿=1 
Khi đ lớn và các xác suất nhỏ, biểu thức ở về phải của (11.4) là một số rất nhỏ, khi tính 
toán có thể gặp sai số. Để giải quyết việc này, (11.4) thường được viết lại dưới dạng tương 
đương bằng cách lấy log của về phải: 


c = argmax (ento) + E) (11.5) 


cc{1,...,C} 
Việc này không ảnh hưởng tới kết quả vì log là một hàm đồng biến trên tập các số dương. 


Sự đơn giản của NBC mang lại hiệu quả đặc biệt trong các bài toán phân loại văn bản, ví 
du bài toán lọc tin nhắn hoặc email rác. Trong phần sau của chương này, chúng ta cùng xây 
dựng một bộ lọc email rác tiếng Anh đơn giản. Cả việc huấn luyện và kiểm thử của NBC 
là cực kỳ nhanh khi so với các phương pháp phân loại phức tạp khác. Việc giả sử các thành 
phan trong dữ liệu là độc lập với nhau khiến cho việc tính toán mỗi phân phối p(x;|c) không 
mất nhiều thời gian. 


Việc tính toán p(x;[c) phụ thuộc vào loại dữ liệu. Có ba loại phân bó xác suất thường được 
sử dung phó là Gaussian naive Bayes, multinomial naive Bayes, và Bernoulli Naive. Chúng 
ta cüng xem xét vào tung loai. 

11.2 Các phân phối thường dùng trong NBC 

11.2.1 Gaussian naive Bayes 

Mô hinh này được sử dụng chủ yếu trong loai dữ liệu mà các thành phần là các biến liên 


tục. Với mỗi chiều dữ liệu ¿ và một class c, z; tuân theo một phân phối chuẩn có kỳ vọng 
Hci và phương sai c2: 


1 (zi — Mei)? 

2 i ci 

iic) = P(T ¿| Hci, đáy) = 11.6 
guis |6] =P Hayas) Tat exp ( 207 ( ) 
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Trong đó, bó tham só Ø = {14,02} được xác định bằng MLE dựa trên các điểm trong 
training set thuộc class c. 


11.2.2 Multinomial naive Bayes 


Mô hình này chủ yếu được sử dụng trong phân loại văn bản mà vector đặc trưng được xây 
dựng dựa trên ý tưởng bag of words (BoW). Lúc này, mỗi văn bản được biểu diễn bởi một 
vector có độ dài d chính là số từ trong từ điển. Giá trị của thành phần thứ ¿ trong mỗi vector 
chính là số làn từ thứ ¿ xuất hiện trong văn bản đó. Khi đó, p(z;|c) tỉ lệ với tần suất từ thứ 
i (hay đặc trưng thứ i cho trường hợp tổng quát) xuất hiện trong các văn bản của class c. 
Giá trị này có thể được tính bằng 


Nei 
Ne 


Aci = Pac) = (11.7) 


Trong dó: 


e Na là tổng số lần từ thứ i xuất hiện trong các văn bản của class c. Nó chính là tổng của 
tất cả các đặc trưng thứ i của các vector đặc trưng ứng với class c. 


e N. là tổng số từ (kể cả lặp) xuất hiện trong class c. Nói cách khác, nó bằng tổng độ dài 
của toàn bó các văn bản thuộc vào class c. Có thể suy ra rằng N, = » Na, từ đó 
PSU re pe Ó day d là só từ trong từ điển. 

Cách tính này có một han ché là nếu có một từ mới chua bao gid xuất hiện trong class c 

thì biểu thức (11.7) sẽ bằng không, dẫn đến về phải của (11.4) bằng không bất ké các giá 

trị còn lại có lớn thế nào (xem thêm ví dụ ở mục sau). Để giải quyết việc này, một kỹ thuật 
được gọi là Laplace smoothing được ấp dụng: 


` Va Fa 


Fo M 11.8 
N. + da ( ) 


với œ là một số dương, thường bằng 1, để tránh trường hợp tử số bằng không. Mẫu số được 
cộng với da để đảm bảo tổng xác suất pum Aci = 1. Nhu vậy, mỗi class c sé được mó tá bởi 
một bộ các số dương có tổng bằng 1: Ae = {À¿t,..., Aca). 


11.2.3 Bernoulli Naive Bayes 


Mô hinh này được áp dung cho các loai dí liệu mà mỗi thành phần là một giá trị nhị phân- 
bằng 0 hoặc 1. Ví dụ, cũng với loại văn bản nhưng thay vì đếm tổng số lần xuất hiện của 
một từ trong văn bản, ta chỉ cần quan tâm từ đó có xuất hiện hay không. 


Khi đó, p(z;|c) được tính bằng: 
p(¡|e) = p(ilc)v; + (1 — p(ilc))(1 — a4) (11.9) 


với p(i|c) có thể được hiểu là xác suất từ thứ i xuất hiện trong các văn bản của class c. 
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11.3 Ví du 
11.3.1 Bác hay Nam 


Giả sử trong training set có các văn bản d1, d2, d3, d4 như trong Bảng 11.1. Mỗi văn bán 
này thuộc vào một trong hai lớp: B (Bác) hoặc N (Nam). Hãy xác định lớp của văn bản d5. 


Bảng 11.1: Ví dụ về nội dung của các văn bản trong bài toán Bắc hay Nam 


Van ban|N6i dung Lóp 
dl hanoi pho chaolong hanoi| B 
Tip huần luyện d2 hanoi buncha pho omai B 
: j d3 pho banhgio omai B 
d4 saigon hutiu banhbo pho | N 
Kiểm thử d5 hanoi hanoi buncha hutiu| ? 


Ta có thé du doán ráng d5 thuóc class Bác. 


Bài toán này có thể được giải quyết bằng NBC sử dụng multinomial Naive Bayes hoặc 
Bernoulli naive Bayes. Chúng ta sẽ cùng làm ví dụ với mô hình thứ nhất và triển khai code 
cho cả hai mô hình. Việc mô hình nào tốt hơn phụ thuộc vào mỗi bài toán. Chúng ta có thể 
thử cả hai để chọn ra mô hình tốt hơn. 


Nhận thấy rằng ở đây có hai lớp B và N, ta cần đi tìm p(B) và p(N) dựa trên tần số xuất 
hiện của mỗi class trong tập training. Ta sẽ có 


p(B) = P(N) = 5 (11.10) 


4’ 
Tap hợp toàn bộ các từ trong các văn bản, hay còn gọi là từ điển, là 


V = {hanoi, pho, chaolong, buncha, omai, banhgio, saigon, hutiu, banhbo} 


Tổng cộng số phần tử trong từ điển là |V| =9. 
Hình 11.1 minh hoạ quá trình huấn luyện và kiểm thử cho bài toán này khi sử dụng Multi- 
nomial naive Bayes, trong đó Laplace smoothing được sử dụng với œ = 1. Chú ý, hai giá tri 
tìm được 1.5 x 107* và 1.75 x 107? không phái là hai xác suất cần tìm mà chỉ là hai dai 
lượng tỉ lệ thuận với hai xác suất đó. Để tính cụ thể, ta có thể làm như sau 

1.5 x 1074 


B = £z 0. N —1-—p(B 0.1045 (11.11 


Nhu váy xác suát dé d5 roi vào class B là 89.5596, vào class N là 10.4596. Ban doc có thé tu 
tính với ví du khác: d6 — pho hutiu banhbo. Nếu tính toán đúng, ta sẽ thu được 


p(B|d6) ~ 0.29, p(N|d6) ~ 0.71 (11.12) 


và suy ra d6 thuóc vào class N. 
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TRAINING 


class = B 
xe 


M 
rd 
Q 


ES 


1 
d5: xs = [2,0,0, 1,0, 0, 0, 1, 0] 


p(B|d5) x p(B) FT, p(œ¡|B) 


d=|V|=9 


=> Ng =11 


(20 = Np + IVI) 


=> Nn =4 > p(xs|B) > p(xs|N) = d5 € class(B) 


(13 = Ny +|V)) 


Hình 11.1: Minh hoa NBC với Multinomial naive Bayes cho bài toán Bắc hay Nam. 


11.3.2 Naive Bayes Classifier vói thu vién scikit-learn 


Dé kiểm tra lai các phép tinh toán phía trên, chúng ta cùng giải quyết bài toán này bằng 
sikit-learn. Ở đây, dữ liệu huấn luyện và kiểm thử đã được đưa về dạng vector đặc trưng sử 
dụng BoW. 


from __future__ import print function 

from sklearn.naive bayes import MultinomialNB 
import numpy as np 

# train data 


di = [2, 1, 1, 0, 0, 0, 0, 0; 0] 
d2 = [1, 1, 0, 1, 1, 0, 0, 0, 0] 
d3 = [0, 1; 0; 0, l, 1, 0, 0, Q0] 
d4 — [Oz 1, 0, 0; 0, 0, 1, l, 1] 


train data = np.array([d1, d2, d3, d4]) 
label = np.array(['B', 'B', 'B', 'N']) 

test data 

d5 = np.array([[2, 0, 0, 1, 0, 0, 0, 1, 0]]) 
d6 = np.array([[0, 1, 0, 0, 0, 0, 0, 1, 1]]) 
# call MultinomialNB 

model = MultinomialNB() 

training 

model.fit(train data, label) 


test 
print('Predicting class of d5:', str(model.predict (d5) [0])) 
print('Probability of d6 in each class:', model.predict, proba (d6)) 
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Két quá: 


Predicting class of d5: B 
Probability of d6 in each class: [[ 0.29175335 0.70824665]] 


Kết quà này nhất quán với những kết quà được tính bằng tay ở trên. 


Nếu sử dụng Bernoulli naive Bayes, chúng ta cần thay đổi một chút về feature vector. Lúc 
này, các giá trị khác không sẽ đều được đưa về 1 vì ta chỉ quan tâm đến việc từ đó có xuất 
hiện trong văn bản hay không. 


from __future__ import print_function 

from sklearn.naive_bayes import BernoulliNB 
import numpy as np 

# train data 


di = [Ly 1, 1; 0, 0, Oy 0, 07 0] 

dz. = [Ly 1; 0, l1; Ty 0, 0, 0, .0] 

d3 = [0, 1, 0, 0, 1; 1, 0, 0, 0] 

d4 = [0, 1, 0, 0, 0, 0, 1, 1, 1] 
( 


train data = np.array([d1, d2, d3, d4]) 

label = np.array(['B', "B", 'B', 'N']) # 0- B, 1- N 
# test data 

d5 = np.array([[1, 0, 0, 1, 0, 0, 0, 1, 0]]) 

d6 = np.array([[0, 1, 0, 0, 0, 0, 0, 1, 1]]) 


## call MultinomialNB 

model = BernoulliNB() 

# training 
model.fit(train data, label) 


# test 
print('Predicting class of d5:', str(model.predict (d5) [0])) 
print ("Probability of d6 in each class:', model.predict proba (d6) ) 


Kết quả: 


Predicting class of d5: B 
Probability of d6 in each class: [[ 0.16948581 0.83051419]] 


Ta tháy ráng, vói bài toán nhó này, cá hai mó hinh déu cho két quà gióng nhau (xác suát 
tim dugc khác nhau nhung khóng ánh huóng tói quyét dinh cuói cüng). 


11.3.3 Naive Bayes Classifier cho bài toán spam filtering 


Tiếp theo, chúng ta cùng làm việc với một bó cơ sở dữ liệu lớn hơn. Dữ liệu trong ví du 
này được lấy trong Exercise 6: Naive Bayes-Machine Learning, Andrew Ng (https: // goo. 
gl/kbzR3d). Trong ví du này, dữ liệu dá được xử lý, và là một tập con của cơ sở dữ liệu 
Ling-Spam dataset (https: //goo.gl/whHCd9). 
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Mô tá dữ liệu Tập dữ liệu này bao gồm tổng cộng 960 email tiếng Anh, được tách thành 
training set và test set theo tỉ lệ 700:260 với 50% trong mỗi tập là các spam email. 


Dữ liệu trong cơ sở dữ liệu này đã được xử lý khá đẹp. Các quy tắc xử lý như sau!: 


1. Loại bỏ stop words: Những từ xuất hiện thường xuyên như “and”, “the”, “of”, v.v. được 
loại bỏ vì chúng xuất hiện ở cả hai loại, không ảnh hưởng nhiều đến việc quyết định. 


2. Lemmatization: Những từ có cùng gốc được đưa về cùng loại. Ví du, “include”, “includes”, 
‘included’ đều được đưa chung vé ‘include’. Tất cà các từ cũng đã được đưa về dang ký 
tự thường (không phải HOA). 


3. Loại bó non-words: các chữ số, dẫu câu, và các ký tự đặc biệt đã được loại bỏ. 


Dưới đây là một ví dụ của một email không phải spam, trước khi được xử lý. 


Subject: Re: 5.1344 Native speaker intuitions 


The discussion on native speaker intuitions has been extremely interesting, but 
I worry that my brief intervention may have muddied the waters. I take it that 
there are a number of separable issues. The first is the extent to which a 
native speaker is likely to judge a lexical string as grammatical or 
ungrammatical per se. The second is concerned with the relationships between 
syntax and interpretation (although even here the distinction may not be 
entirely clear cut). 


và sau khi được xử lý: 


re native speaker intuition discussion native speaker intuition extremely 
interest worry brief intervention muddy waters number separable issue first 
extent native speaker likely judge lexical string grammatical ungrammatical 
per se second concern relationship between syntax interpretation although 
even here distinction entirely clear cut 


Và dưới đây là một ví du về spam email sau khi được xử lý. 


financial freedom follow financial freedom work ethic extraordinary desire earn 
least per month work home special skills experience required train personal 
support need ensure success legitimate homebased income opportunity put back 
control finance life ve try opportunity past fail live promise 


Chúng ta thấy rằng trong đoạn này có các từ như: financial, extraordinary, earn, opportunity, 
v.v. là những từ thường thấy trong các email spam. 


Trong ví dụ này, chúng ta sẽ sử dụng Multinomial Naive Bayes. 


* Ban doc có thể tham khảo thư viện NLTK (http: //www.nltk.org/) cho các công việc xử lý dữ liệu này. 
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Dé cho bài toán được đơn giản hơn, chúng ta sẽ tiếp tục sử dụng dữ liệu đã được xử lý, có 
thể được download tai https: // goo.gl/ CSMxHU. Trong folder sau khi giải nén, chúng ta sẽ 
thấy các file: 


test-features.txt 
test-labels.txt 
train-features-50.txt 
train-features-100.txt 
train-features-400.txt 
train-features.txt 
train-labels-50.txt 
train-labels-100.txt 
train-labels-400.txt 
train-labels.txt 


tương ứng với các file chứa dữ liệu của training set và test set. File train— features— 59. txt 
chứa dữ liệu của training set thu gon với chỉ tong cộng 50 email. Mỗi file 1abels.txt chứa 
nhiều dòng, mỗi dòng là một ký tự 0 hoặc 1 thể hiện email là non-spam hoặc spam. 


Mỗi file features.txt chứa nhiều dòng, mỗi dòng có 3 số, chàng hạn: 


1 564 1 
1 19 2 


Trong đó, số đầu tiên là chỉ số của email, bắt đầu từ 1; số thứ hai là thứ tự của từ trong từ 
điển (tổng cộng 2500 từ); số thứ ba là số lượng của từ đó trong email đang xét. Dòng đầu 
tiên nói rằng trong email thứ nhất, từ thứ 564 trong từ điển xuất hiện một lần. Cách lưu 
dữ liệu như thế này giúp tiết kiệm bộ nhớ vì một email thường không chứa hết tất cả các 
từ trong từ điển mà chỉ chứa một lượng nhỏ, ta chỉ cần lưu các giá trị khác không. 


Nếu biểu diễn mỗi email bằng một vector hàng có độ dài bằng độ dài từ điển (2500) thì 
dòng thứ nhất nói rằng đặc trưng thứ 564 của vector này bằng 1. Tương tự, đặc trưng thứ 
19 của vector này bằng 2. Nếu không xuất hiện, các thành phần khác được mặc định bằng 
0. Dựa trên các thông tin này, chúng ta có thể tiến hành lập trình với thư viện sklearn. 


Khai báo thư viện và đường dẫn tới files: 


from __future__ import print function 

import numpy as np 

from scipy.sparse import coo matrix 4 for sparse matrix 

from sklearn.naive bayes import MultinomialNB, BernoulliNB 

from sklearn.metrics import accuracy score # for evaluating results 
# data path and file name 


path = 'ex6DataPrepared/' 

train data fn = 'train-features.txt' 
test data fn = 'test-features.txt' 
train label fn = 'train-labels.txt' 
test label fn = 'test-labels.txt' 
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Tiếp theo ta cần viết hàm só đọc dữ liệu từ file data_£n với label tương ứng được lưu trong 
label fn. Chú ý rằng số lượng từ trong từ điển là 2500. 


Dữ liệu sẽ được lưu trong một ma trận mà mỗi hàng là một vector đặc trưng của email. Ma 
trận này là một ma trận sparse nên chúng ta sẽ sử dụng hàm scipy.sparse.coo_matrix. 


nwords = 2500 


def read data(data fn, label fn): 

# read label fn 

with open(path + label fn) as f: 

content = f.readlines() 

label = [int(x.strip()) for x in content] 


# read data fn 
with open(path + data fn) as f: 


content = f.readlines() 
# remove “An” at the end of each line 
content = [x.strip() for x in content] 


dat = np.zeros((len(content), 3), dtype = int) 


for i, line in enumerate (content): 
a = line.split(' ") 
dat[i, :] = np.array([int(a[0]), int(a[1]), int(a[2])]) 


# remember to -1 at coordinate since we're in Python 

data = coo matrix((dat[:, 2], (dat[:, 0] - 1, dat[:, 1] - 1)),\ 
shape-(len(label), nwords)) 

return (data, label) 


Đoạn code dưới đây giúp lấy dữ liệu huấn luyện và kiểm thử, sau đó tiến hành phân lớp sử 
dụng MultinomialNB. 


(train_data, train_label) = read data(train data fn, train label fn) 
(test data, test label) — read data(test data fn, test label fn) 


clf = MultinomialNB() 
clf.fit(train data, train label) 


y pred = clf.predict (test data) 
print('Training size = $d, accuracy = $.2f$$' $ \ 
(train data.shape[0],accuracy score(test label, y pred)*100)) 


Kết quả: 


9. 


Training size = 700, accuracy = 98.08% 


Vậy là có tới 98.0896 các email được phân loại đúng. Chúng ta tiếp tục thử với các bộ dit 
liệu training nhỏ hơn. 
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train data fn = 'train-features-100.txt' 
train label fn = 'train-labels-100.txt' 
test data fn = 'test-features.txt' 

test label fn = 'test-labels.txt' 


(train data, train label) = read data(train data fn, train label fn) 
(test data, test label) — read data(test data fn, test label fn) 
clf = MultinomialNB() 
clf.fit(train data, train, label) 
y pred = clf.predict (test data) 
print('Training size = $d, accuracy = $.2f$$' % \ 
(train data.shape[0],accuracy score(test label, y pred)*100)) 


train data fn = 'train-features-50.txt' 
train label fn = 'train-labels-50.txt' 
test data fn = 'test-features.txt' 

test label fn = 'test-labels.txt' 


(train data, train label) = read data(train data fn, train label fn) 
(test data, test label) — read data(test data fn, test label fn) 
clf = MultinomialNB() 
clf.fit(train data, train label) 
y pred = clf.predict (test data) 
print('Training size = $d, accuracy = $.2f$$' $ \ 
(train data.shape[0],accuracy score(test label, y pred)*100)) 


Két quà: 
Training size = 100, accuracy = 97.69% 
Training size = 50, accuracy = 97.31$ 


Ta tháy ráng thàm chí khi training set là rát nhó, 50 email tóng cóng, két quà dat dugc dá 
rất án tượng. 


Nếu bạn muốn tiếp tục thử mô hinh BernoulliNB: 


clf = BernoulliNB(binarize = .5) 
clf.fit(train data, train label) 
y pred = clf.predict (test data) 
print('Training size = $d, accuracy = $.2f$$' $ \ 
(train data.shape[0],accuracy score(test label, y pred)*100)) 


Kết quả: 


Training size = 50, accuracy = 69.62% 


Ta thấy rằng trong bài toán này, MultinomialNB hoạt động hiệu quả hon. 
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11.4 Tháo luán 
11.4.1 Tóm tát 
e Naive Bayes classifiers (NBC) thường được sử dụng trong các bài toán phân loại văn bản. 


e NBC có thời gian huấn luyện và kiểm thử rất nhanh. Điều này có được là do giả sử về 
tính độc lập giữa các thành phần. 

e Nếu giả sử về tính độc lập được thoả mãn (dựa vào ban chất của dữ lieu), NBC được cho 
là cho kết quả tốt hon so với support vector machine (Phan VIII) và logistic regression 
(Chương 14) khi có ít dữ liệu huấn luyện. 

e NBC có thể hoạt động với các vector đặc trung mà một phần là liên tục (sử dụng Gaussian 
Naive Bayes), phần còn lại ở dạng rời rạc (sử dụng Multinomial hoặc Bernoulli). Chính 


sự độc lập giữa các đặc trưng khiến NBC có khả năng này. 


e Khi sử dụng Multinomial Naive Bayes, Laplace smoothing thường được sử dung dé tránh 
trường hợp một từ trong dí liệu kiểm thử chưa xuất hiện trong training set. 


e Source code trong chương này có thể được tim thấy tại đây. 


11.4.2 Đọc thêm 
1. Text Classification and Naive Bayes - Stanford (https: // goo.gl/ HcefLX ). 


2. 6 Easy Steps to Learn Naive Bayes Algorithm (with code in Python) (https: // goo.gl/ 
odQaaY ). 
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Phán IV 


Neural networks 


Chương 12 — WIN 


Gradient descent 


12.1 Giới thiệu 


Hình 12.1 mô tả sự biến thiên của hàm số f(x) = $(x — 1)? — 2. Điểm màu xanh luc là một 
điểm cuc tiểu (local minimum), và cũng là điểm làm cho hàm số đạt giá trị nhỏ nhất (global 
minimum). Global minimum là một trường hợp đặc biệt của local minimum. 


Giả sử ta đang quan tâm đến một hàm số một biến có đạo hàm mọi nơi. Cùng ôn lại một 
vài điểm cơ bản: 


1. Điểm local minimum z* của ham só là điểm có dao hàm f'(x*) bằng không. Hon thé nữa, 
trong lân cận của nó, đạo hàm của các điểm phía bên trái z* là không dương, đạo hàm 
của các điểm phía bên phải z* là không âm. 


2. Đường tiếp tuyến với đồ thị hàm số đó tại một điểm bất kỳ có hệ số góc chính bằng đạo 
hàm của hàm số tại điểm đó. 


Trong Hình 12.1, các điểm bên trái của điểm local minimum màu xanh lục có đạo hàm âm, 
các điểm bên phải có đạo hàm dương. Và đối với hàm số này, càng xa về phía trái của điểm 
local minimum thì đạo hàm càng âm, càng xa về phía phải thì đạo hàm càng dương. 


Trong machine learning nói riêng và toán tối uu nói chung, chúng ta thường xuyên phải tìm 
các giá trị lớn nhất hoặc nhỏ nhất của một hàm số. Nếu chỉ xét riêng các hàm khả vi liên 
tục, việc giải phương trình đạo hàm bằng không thường rất phức tạp hoặc có thể ra vô số 
nghiệm. Thay vào đó, người ta thường có gắng tìm các điểm local minimum, và ở một mức 
độ nào đó, coi đó là một nghiệm cần tìm của bài toán. 


Các điểm local minimum là nghiệm của phương trình đạo hàm bằng không (ta vẫn đang giả 
sử rằng các hàm này liên tục và khả vi). Nếu bằng một cách nào đó có thể tìm được toàn bộ 
(hữu hạn) các điểm cực tiểu, ta chỉ cần thay từng điểm local minimum đó vào hàm số rồi 
tìm điểm làm cho hàm có giá trị nhỏ nhất. Tuy nhiên, trong hầu hết các trường hợp, việc 
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Hình 12.1: Khảo sát su bién thiên 
của một đa thức bậc hai. 


giải phương trình đạo hàm bằng không là bất khả thi. Nguyên nhân có thể đến từ sự phức 
tạp của dạng của đạo hàm, từ việc các điểm dữ liệu có số chiều lớn, hoặc từ việc có quá 
nhiều điểm dữ liệu. Thực tế cho thấy, trong nhiều bài toán machine learning, các nghiệm 
local minimum thường đã cho kết quả tốt, đặc biệt là trong neural networks. 


Hướng tiếp cận phổ biến nhất để giải quyết các bài toán tối ưu là xuất phát từ một điểm 
được coi là gần với nghiệm của bài toán, sau đó dùng một phép toán lặp để tiến dan đến 


điểm cần tìm, tức đến khi đạo hàm gần với không. Gradient descent (GD) và các biến thể 
của nó là một trong những phương pháp được dùng nhiều nhất. 


12.2 GD cho hàm một bién 


Xét các hàm số một biến ƒ : R — R. Quay trở lại Hình 12.1 và một vài quan sát đã nêu. 
Giả sử x, là điểm tim được sau vòng lặp thứ t. Ta cần tìm một thuật toán để đưa x, về càng 
gần x* càng tốt. Có hai quan sát sau day: 


1. Nếu dao hàm của hàm số tại x, là dương (f'(x,) > 0) thì z; nằm về bên phải so với z*, 
và ngược lại. Dé điểm tiếp theo z,¡¡ gần với z* hơn, chúng ta cần di chuyển z, về phía 
bên trái, tức về phía âm. Nói các khác, ta cần di chuyển ngược dấu với đạo hàm: 


Xt] = Xt + A (12.1) 
Trong đó A là một đại lượng ngược dấu với dao hàm f'(x;). 


2. z, càng xa x* vé phía bên phải thì f'(x,) càng lớn hơn 0 (và ngược lại). Vậy, lượng di 
chuyển A, một cách tự nhiên nhất, là tỉ lệ thuận với — f’ (x+). 


Hai nhận xét phía trên cho chúng ta một cách cập nhật đơn giản là 


Tuy = Yi — nf (zi) (12.2) 


Trong đó 1 là một só dương được goi là tóc độ hoc (learning rate). Dau trit thé hiện việc 
chúng ta phái di ngược với đạo hàm!. Các quan sát đơn giản phía trên, mặc dù không phải 
đúng trong tất cả các trường hợp, là nền tang cho rất nhiều phương pháp tối uu. 


Day chính là lý do phương pháp này được gọi là gradient descent-descent nghĩa là đi ngược 
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12.2.1 Ví du don gián vói Python 
Xét hàm só f(x) = x? + 5sin(z) với dao hàm f'(x) = 2z + 5cos(x). Giả sử bắt đầu từ một 
điểm xp nào đó, tại vòng lặp thứ t, chúng ta sẽ cập nhật như sau: 

Ley. = Ti — TỊ(2#¡ + 5 cos(;)) (12.3) 


Khi thực hiện trên Python, ta cần viết các hàm số”: 


1. grad để tính đạo hàm. 


2. cost để tính giá trị của hàm số. Hàm này không sử dụng trong thuật toán nhưng thường 
được dùng để kiểm tra việc tính đạo hàm có đúng không hoặc để xem giá trị của hàm số 
có giảm theo mỗi vòng lặp hay không. 


3. myGD1 là phần chính thực hiện thuật toán GD nêu phía trên. Đầu vào của hàm số này là 
learning rate và điểm xuất phát. Thuật toán dừng lại khi đạo hàm có độ lớn đủ nhỏ. 


def grad(x) : 
return 2*x+ 5*np.cos (x) 


def cost (x): 
return x**2 + 5*np.sin (x) 


def myGD1(x0, eta): 


x = [x0] 
for it in range(100): 
x_new = x[-1] ta*grad(x[-1]) 
if abs(grad(x new)) « le-3: # just a small number 
break 


x.append(x new) 
return (x, it) 


Diém xuát phát khác nhau 


Sau khi dá có các hàm càn thiét, chúng ta thú tim nghiém vói các diém khói tao khác nhau 


là £o = —5 và zo = 5, với cùng learning rate y = 0.1. 

(x1, itl) = myGD1(-5, .1) 

(x2, it2) = myGD1(5, .1) 

print('Solution xl = $f, cost = $f, after $d iterations'$(xl[-1], cost(x1[-1]), it1)) 
print('Solution x2 = $f, cost = $f, after $d iterations'$(x2[-1], cost(x2[-1]), it2)) 
Két quà: 

Solution x1 = -1.110667, cost = -3.246394, after 11 iterations 


Solution x2 1,110341, cost -3.246394, after 29 iterations 


? Giả sử rằng các thư viện dà được khai báo dày đủ 
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30 307 30 30 
20 204 20 20 
10 10 10 10 
0 0 0 0 
-5 0 5 -5 0 5 -5 0 5 -5 0 5 
iter 0/11, grad = -8.582 iter 1/11, grad = -10.984 iter 2/11, grad = -11.063 iter 3/11, grad = -5.665 
30 304 30 30 
20 204 20 20 
10 10 10 10 
0 0 0 0 
—$ 0 5 -5 0 5 =5 0 5 =5 0 5 
iter 4/11, grad = -1.747 iter 5/11, grad = -0.561 iter 7/11, grad = -0.066 iter 11/11, grad = -0.001 


Hình 12.2: Nghiệm tìm được qua các vòng lặp với xy = —5,7 = 0.1 


Vậy là với các điểm xuất phát khác nhau, thuật toán tìm được nghiệm gần giống nhau, mặc 
dù với tốc độ hội tụ khác nhau. Hình 12.2 và Hình 12.3 thể hiện vị trí của nghiệm và đạo 
hàm qua các vòng lặp với cùng learning rate y =.1 nhưng điểm khởi tạo khác nhau tại —5 
và 5. 


Hình 12.2 tương ứng với zo = —5, cho thấy nghiệm hội tụ nhanh hơn, vì điểm ban đầu xo 
gần với nghiệm #*  —1 hơn. Hơn nữa, đường di tới nghiệm khá suón sẻ với đạo hàm luôn 
âm và càng gần nghiệm thì đạo hàm càng nhỏ. 


Trong Hinh 12.3 tương ứng với xy = 5, đường di của nghiệm có chứa một khu vực có dao 
hàm khá nhỏ gần điểm có hoành độ bằng 2.5. Điều này khiến cho thuật toán la cà ở đây 
khá lâu. Khi vượt qua được điểm này thì mọi việc diễn ra rất tốt đẹp. Các điểm không phải 
là điểm cực tiểu nhưng có đạo hàm gần bằng không rất dễ gây ra hiện tượng nghiệm bị bấy 
(trapped) tại dày vì dao hàm nhỏ khiến nó không thay đổi nhiều ở vòng lặp tiếp theo. Chúng 
ta sẽ thấy một kỹ thuật khác giúp thoát được những chiếc bãy này. 


Learning rate khác nhau 


Tốc độ hội tụ của GD không những phụ thuộc vào điểm xuất phát mà còn phụ thuộc vào 
learning rate. Hình 12.4 và Hình 12.5 thể hiện vị trí của nghiệm qua các vòng lặp với cùng 
điểm khói tạo ry = —5 nhưng learning rate khác nhau. Ta quan sát thấy hai điều: 


1. Với learning rate nhỏ y = 0.01 (Hình 12.4), tốc độ hội tụ rất chậm. Trong ví dụ này ta 
chọn tối đa 100 vòng lặp nên thuật toán dừng lại trước khi tới đích, mặc dù đã rất gần. 


Machine Learning cơ bản https: // machinelearningcoban. com 


CHUONG 12. GRADIENT DESCENT 144 


30 3 304 304 304 

204 204 20 4 204 

104 104 104 104 

04 04 04 04 
—5 0 5 


| 
a 
oy 
on 

| 
e 
e 
od 


iter 0/29, grad = 11.418 iter 3/29, grad = 1.517 iter 6/29, grad = 0.925 "ter 10/29, LR 0.983 
304 304 304 304 
204 204 204 204 
104 104 104 104 
04 04 04 04 
—5 5 —B 0 5 5 0 5 5 5 
iter 15/29, dida 2.341 iter 20/29, grad = 4.739 iter 25/29, grad = 0.071 iter 29/29, Ja- 0.001 


Hinh 12.3: Nghiệm tìm được qua các vòng lặp với zo = 5,7 = 0.1 
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Hình 12.4: Nghiệm tìm được qua các vòng lặp với diém xuát phát zo = —5, learning rate 


n = 0.01. 


Trong thực tế, khi việc tinh toán trở nên phức tap, learning rate quá thấp sé ảnh hưởng 
tới tốc độ của thuật toán rất nhiều, thậm chí không bao giờ tới được đích. 
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Hình 12.5: Nghiệm tìm được qua các vòng lặp với xy = —5, n = 0.5 


2. Với learning rate lớn y = 0.5 (Hình 12.5), thuật toán tiến rất nhanh tới gán đích sau vài 
vòng lặp. Tuy nhiên, thuật toán không hội tụ được vì sự thay đổi vị trí của nghiệm sau 
mỗi vòng lặp là quá lớn, khiến nó cứ quán quanh 6 đích mà vẫn không tới được dich. 


Việc lựa chọn learning rate rất quan trọng. Việc này phụ thuộc nhiều vào từng bài toán 
và phải làm một vài thí nghiệm để chọn ra giá trị tốt nhất. Ngoài ra, tùy vào một số bài 
toán, GD có thể làm việc hiệu quả hơn bằng cách chọn ra learning rate phù hợp hoặc chọn 
learning rate khác nhau ở mỗi vòng lặp, thường là giảm dần. 


12.3 GD cho hàm nhiều bién 


Gia sử ta cần tìm global minimum cho hàm /(0) trong đó 0 là tập hợp các tham số cần tối 
ưu. Dao hàm của hàm số đó tại một điểm 0 bát kỳ được ký hiệu là Vạƒ(6). Tương tự nhu 
hàm một biến, thuật toán GD cho hàm nhiều biến cũng bắt đầu bằng một điểm dự đoán 0, 
sau đó, ở vòng lặp thứ , quy tắc cập nhật là 


0a = 6; = nV of (6) (12.4) 
Hoặc viết dưới dang đơn giản hon: 0 — 0 — Vạƒ(6). 


Quay lại với bài toán linear regression 


Trong mục này, chúng ta quay lại với bài toán linear regression và thử tối ưu hàm mất mát 
của nó bằng thuật toán ŒD. 


Nhắc lại hàm mát mát của linear regression và dao hàm theo w lần lượt là 
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10 Hinh 12.6: Nghiém cúa bai toán 
linear regression (dudng tháng máu 
vàng) tìm được bằng thư viện 
scikit-learn. 

24 

0+1 T T T T 

0.0 0.2 0.4 0.6 0.8 1.0 
£(w) = lly X”w|Š: Vs£(w) = =X(X?w - y) (125) 
2N er m N 


Sau đây là ví dụ trên Python và một vài lưu ý khi lập trinh 


Trước hết, chúng ta tao 1000 điểm dữ liệu được chọn gan với đường thắng y = 4 + 3z: 


from sklearn.linear_model import LinearRegression 

X = np.random. rand (1000) 

y = 4 + 3 * X + .5*np.random.randn (1000) # noise added 
model = LinearRegression() 

model.fit(X.reshape(-1, 1), y.reshape(-1, 1)) 

w, b = model.coef_[0][0], model.intercept [0] 

sol sklearn = np.array([b, w]) 

print (sol sklearn) 


Két quà: 


Solution found by sklearn: [ 3.94323245 3.12067542] 


Các điểm dữ liệu và đường thang tim được bằng linear regression có phương trinh y = 
3.94 + 3.12x được minh hoa trong Hình 12.6. Nghiệm tìm được rất gần với mong đợi. 


Tiếp theo, ta sẽ thực hiện tìm nghiệm của linear regression sử dụng GD. Ta cần viết hàm 
mát mát và đạo hàm theo w. Chú ý rằng ở đây w đã bao gồm cả bias. 


def grad(w) : 
N = Xbar.shape[0] 
return 1/N * Xbar.T.dot (Xbar.dot (w) - y) 


def cost (w): 
N = Xbar.shape[0] 
return .5/N*np.linalg.norm(y - Xbar.dot(w))**2 
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Với các hàm phức tạp, khi tính xong đạo hàm chúng ta cần kiểm tra đạo hàm thông qua 
numerical gradient (xem Mục 2.6). Trường hợp này tương đối đơn giản, việc kiểm tra đạo 
hàm xin giành lại cho bạn đọc. Dưới đây là thuật toán GD cho bài toán. 


def myGD(w init, grad, eta): 


w — [w init] 
for it in range(100): 
w new = w[-1] ta*grad(w[-1]) 
if np.linalg.norm(grad(w new))/len(w new) « 1e-3: 
break 


w.append(w new) 
return (w, it) 


one = np.ones((X.shape[0],1)) 


Xbar = np.concatenate((one, X.reshape(-1, 1)), axis = 1) 

w_init = np.array([[2], [1]]) 

(wl, itl) = myGD(w init, grad, 1) 

print ("Sol found by GD: w = ', w1[-1].T, ’,\nafter $d iterations.’ %(it1+1)) 
Két quá: 

Sol found by GD: w= [ 3.99026984 2.98702942] , 


after 49 iterations. 


Sau 49 vóng láp, thuát toán dà hói tu vói mót nghiém khá gàn vói nghiém tim dugc theo 
sklearn. Hinh 12.7 mó tá duóng di cúa nghiém vói cüng diém khói tao nhung vói learning 
rate khác nhau. Các diém màu lam là các diém xuát phát. Các diém màu luc là nghiém tim 
được bằng thư viện scikit-learn. Các điểm màu đỏ là nghiệm qua các vòng lặp trung gian. 
Ta thấy rằng khi eta = 1, thuật toán hội tụ tới (rất gần) nghiệm theo thư viện sau 49 vòng 
lặp. Với learning rate nhỏ hơn, 7 = 0.1, sau hơn 100 vòng lặp, nghiệm vẫn còn cách xa đích. 
Như vậy, việc chọn learning rate hợp lý là rất quan trọng. 


Ỏ đây, chúng ta cùng làm quen với một khái niệm quan trọng: đường đồng múc (level sets). 


Ta thường gặp khái niệm đường đồng múc trong các bản đồ tự nhiên. Các điểm có cùng 
độ cao so với mực nước biển thường được nối với nhau. Với các ngọn núi, đường đồng mức 
thường là các đường kín bao quanh đỉnh núi. Khái niệm tương tự cũng được sử dụng trong 
tối ưu. Đường đồng mức hay level sets của một ham só là tập hợp các điểm làm cho hàm số 
có cùng giá trị. Tưởng tượng một hàm số với hai biến, đồ thị của nó là một bề mát (surface) 
trong không gian ba chiều. Đường đồng mức có thể được xác định bằng cách cát bề mặt này 
bằng một mặt phẳng song song với đáy và lấy giao điểm của chúng. Với dữ liệu hai chiều, 
hàm mát mát của linear regression là một hàm bậc hai của hai thành phần trong vector hệ 
số w. Đồ thị của nó là một bề mặt parabolic. Vì vậy, các đường đồng mức của hàm này là 
các đường ellipse có cùng tâm như trên Hình 12.7. Tâm này chính là đáy của parabolic và là 
giá trị nhỏ nhất của hàm mất mát. Các đường đồng mức được biểu diễn bởi các màu khác 
nhau với màu từ lam đậm đến lục, vàng, cam, đỏ, đỏ đậm thể hiện giá trị tăng dần. 
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51 iterations 101 iterations 


(a) » — 1. (b) 7 = 0.1. 


Hình 12.7: Đường di nghiệm của linear regression với các learning rate khác nhau. 


12.4 GD vói momentum 


Trước hết, cùng nhắc lại thuật toán GD để tối uu hàm mát mát J(0): 


1. Dự đoán một điểm khói tạo Ø = Op. 
2. Cập nhật Ø đến khi đạt được kết quả chấp nhận được: 
0 9—nV;J(0) (12.6) 


với VaJ(0) là dao hàm của hàm mát mát tại 0. 


Gradient dưới góc nhìn vật lý 


Thuật toán GD thường được ví với tác dụng của trọng lực lên một hòn bi đặt trên một mặt 
có dạng một thung lũng như Hình 12.8a. Bất kể ta đặt hòn bi ở A hay B thì cuối cùng hòn 
bi cũng sẽ lăn xuống và kết thúc ở vị trí C. 


Tuy nhiên, nếu như bề mặt có hai đáy thung lũng như Hình 12.8b thì tùy vào việc đặt bi ở 
A hoặc B, vị trí cuối cùng tương ứng của bi sẽ ở C hoặc D (giả sử rằng ma sát đủ lớn và dà 
chưa quá lớn khiến bi không thể vượt dốc). Điểm D chính là một điểm local minimum. 


Nếu suy nghĩ một cách vật lý hơn, vẫn trong Hình 12.8b, nếu vận tốc ban đầu của bi khi ở 
điểm B đủ lớn, khi bi lăn đến điểm D, theo đà, bi có thể tiếp tục di chuyển lên dốc phía bên 
trái của D. Và nếu giả sử vận tốc ban đầu lớn hơn nữa, bi có thể vượt dốc tới điểm E rồi lăn 


Machine Learning cơ bản https: // machinelearningcoban. com 


149 CHUONG 12. GRADIENT DESCENT 


b) GD c) GD with momentum 


Hình 12.8: So sánh GD với các hiện tượng vật lý. 


xuống như trong Hình 12.8c. Dựa trên quan sát này, một thuật toán được ra đời nhằm 
giúp GD thoát được các local minimum. Thuật toán đó có tên là momentum (tức theo đà). 


GD với momentum 
Làm thế nào dé biểu diễn momentum dưới dạng toán học? 


Trong GD, chúng ta cần tính lượng thay đổi ở thời điểm t để cập nhật vi trí mới cho nghiệm 
(tức hon bi). Nếu chúng ta coi đại lượng này như vận tóc v, trong vật lý, vị trí mới của hòn 
bi sẽ là 0,,4 = 0, — tạ, với giả sử rằng mỗi vòng lặp là một đơn vị thời gian. Dấu trit thể hiện 
việc phải di chuyển ngược với dao hàm. Việc tiếp theo là tính đại lượng v, sao cho nó vừa 
mang thông tin của độ đốc (tức đạo hàm), vừa mang thông tin của da, tức vận tốc trước đó 
vı (với giả sử rằng vận tóc ban đầu vp = 0). Một cách đơn giản nhất, ta có thể lay tong 
có trọng số của chúng: 

Ue = qvi i + VeJ (0) (12.7) 


Trong đó y thường được chon là một giá tri nhỏ hơn gần bằng một, thường là khoảng 0.9, 
vı là vận tóc tại thời điểm trước đó, Vạ/J(Ø) chính là độ dốc của điểm trước đó. Sau đó, 
vị trí mới của hòn bi được xác định bởi 


0 4 0 — vi = 0 — nVạJ(6) — yvi (12.8) 


Sự khác nhau giữa GD thông thường và GD với momentem chỉ nằm ở thành phần cuối cùng 
của (12.8). Thuật toán đơn giản này tỏ ra rất hiệu quả trong các bài toán thực tế. Dưới đây 
là một ví dụ trong không gian một chiều. Xét một hàm đơn giản có hai điểm local minimum, 
trong đó một điểm là global minimum 


f(x) = 2? + 10sin(z) (12.9) 
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Hình 12.9: GD thông thường. 
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Hinh 12.10: GD vói momentum. 


với dao hàm f'(x) = 2z + 10cos(z). Hình 12.9 thể hiện đường đi của nghiệm cho bài toán 
này khi không sử dụng momentum. Ta thấy rằng thuật toán hội tụ nhanh chóng sau chỉ bốn 
vòng lặp. Tuy nhiên, nghiệm dừng lại ở một điểm local minimum. Trong khi đó, Hình 12.10 
thể hiện đường đi của nghiệm khi có sử dụng momentum. Chúng ta thấy rằng hon bi vượt 
được dốc thứ nhất nhờ có đà, theo quán tính tiếp tục vượt qua điểm global minimum, nhưng 
quay trở lại điểm này sau 50 vòng lặp rồi chuyển động chậm dàn quanh đó tới khi dừng hàn 
ở vòng lặp thứ 100. Ví dụ này cho thấy momentum thực sự đã giúp nghiệm thoát được khu 
vực local minimum. 


Nếu biết trước điểm đặt bi ban đầu theta, đạo hàm của hàm mất mát tại một điểm bất kỳ 
grad(theta), lượng thông tin lưu trữ từ vận tốc trước đó gamma và learning rate eta, chúng ta 
có thể viết hàm GD_momentum như sau. 
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cáp nhát 
y Ủy = 86,4—yvi iV eJ (0,1) 


0-1 gradient step —VaJ(0, 1) 


(a) Momentum gradient descent. (b) Nesterov accelerated gradient. 


Hinh 12.11: Y tuóng cüa Nesterov accelerated gradient. 


def GD momentum(grad, theta init, eta, gamma): 
# Suppose we want to store history of theta 
theta = [theta init] 
v old = np.zeros like(theta init) 
for it in range(100): 
v new = gamma*v old + eta*grad(theta[-1]) 


theta new = theta[-1] v new 

if np.linalg.norm(grad(theta new))/np.array(theta init).size « 1e-3: 
break 

theta.append(theta new) 

v old = v new 


return theta 


12.5 Nesterov accelerated gradient 


Momentum giúp hón bi vugt qua dugc dóc local minimum. Tuy nhién, có mót han ché chúng 
ta có thể thấy trong ví dụ trên: khi tới gần đích, momemtum vẫn mát khá nhiều thói gian 
trước khi dừng lại, cũng chính vi có đà. Một kỹ thuật có tên Nesterov accelerated gradient 
(NAG) [Nes07] giúp cho thuật toán momentum GD hội tụ nhanh hon. 


Ý tưởng chính 


Ý tưởng trung tâm của thuật toán là dự đoán vi trí của nghiệm trước một bước. Cụ thể, nếu 
sử dung số hạng momentum +u,_¡ dé cập nhật thi ta có thể xáp xi được vị trí tiếp theo của 
nghiệm là 0 — +u¿_¡. Vậy, thay vì sử dung gradient của điểm hiện tại NAG đi truóc một 
bước, sử dụng gradient của điểm được dự đoán là vị trí tiếp theo. Ý tưởng này được thể hiện 
trên Hình 12.11. 


e Với momentum thông thường, lượng thay đổi là tong của hai vector: momentum vector 
và gradient ở thời điểm hiện tại. 


e Với Nesterove momentum, lượng thay dói là tổng của hai vector: momentum vector và 
gradient của điểm được dự đoán là vị trí tiếp theo. 
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Sự khác nhau giữa momentum và NAG nằm ở điểm lấy dao hàm. Ở momentum, điểm được 
lấy đạo hàm chính là vị trí hiện tại của nghiệm. Ó NAG, điểm được lấy đạo hàm là điểm có 
được nếu sử dụng momentum. 


Công thức cập nhật 
Công thức cập nhật của NAG được cho như sau: 


Uy = 0¿_1 + n VgJ (0 — yvi) (12.10) 
0—6-wu (12.11) 


Doan code duói dày là hàm cho NAG. 


def GD NAG(grad, theta init, eta, gamma): 


theta = [theta init] 
v = [np.zeros like(theta init)] 
for it in range(100): 
v new = gamma*v[-1] + eta*grad(theta[-1] - gamma*v[-1]) 
theta new = theta[-1] v new 
if np.linalg.norm(grad(theta new))/np.array(theta init).size « 1e-3: 
break 


theta.append(theta new) 
v.append (v. new) 
return theta 


Ví du minh hoa 


Chúng ta cüng áp dung cà GD vói momentum và GD vói NAG cho bài toán linear regression 
đề cập ở trên. Hinh 12.12 thể hiện đường di của nghiệm khi sử dung hai phương pháp này. 
Hình 12.12a là đường đi của nghiệm với phương phấp momentum. Nghiệm đi khá zigzag và 
mát nhiều vòng lặp hơn. Hinh 12.12b là đường đi của nghiệm với phuong pháp NAG, nghiệm 
hội tu nhanh hơn, và đường đi ít zigzag hon. 


12.6 Stochastic gradient descent 
12.6.1 Batch gradient descent 


Thuật toán GD được đề cập từ đầu chương tới hiện tại còn được gọi là batch GD. Batch ở 
đây được hiểu là tát cá, tức khi cập nhật các tham só 0, chúng ta sử dụng tất cả các điểm 
dữ liệu x;. Han chế của việc này là khi lượng co sở dữ liệu lớn, có thể tới hàng triệu, việc 
tính toán đạo hàm trên toàn bộ dữ liệu tại mỗi vòng lặp sẽ tốn rất nhiều thời gian. 


Online learning là khi co sở dit liệu được cập nhật liên tục, mỗi lần tăng thêm vài điểm dữ 
liệu mới, yêu cầu cập nhật mô hình mới. Kéo theo đó là mô hình cũng phải được thay đổi 
một chút để phù hợp với dữ liệu mới. Nếu làm theo batch GD, tức tính lại đạo hàm của hàm 
mất mát tại tất cả các điểm dữ liệu, độ phức tạp tính toán sẽ rất cao. Lúc đó, thuật toán 
có thể không còn mang tính online nữa do mất quá nhiều thời gian tính toán. 
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101 iterations 28 iterations 


(a) GD với momentum. (b) GD với NAG. 


Hình 12.12: Đường đi của nghiệm cho bài toán linear regression với hai phương pháp gradient 
descent khác nhau. NAG cho nghiệm mượt hơn và nhanh hơn. 


Một thuật toán đơn giản hơn, chấp nhận việc có sai số một chút nhưng lại lợi ích tính toán 
cao, thường được sử dụng có tên gọi là stochastic gradient descent (SGD). 


12.6.2 Stochastic gradient descent 


Trong SGD, tại một thời điểm (vòng lặp-iteration), ta chỉ tính đạo hàm của hàm mát mát 
dựa trên chỉ một điểm dữ liệu x; rồi cập nhật 0 dựa trên đạo hàm này. Chú ý rằng hàm mát 
mát thường được lấy trung bình trên mỗi điểm dữ liệu nên đạo hàm tại một điểm cũng được 
kỳ vong là khá gần với đạo hàm của hàm mất mát trên mọi điểm dữ liệu. Sau khi duyệt qua 
tất cả các điểm dữ liệu, thuật toán lặp lại quá trình trên. Biến thể đơn giản này trên thực 
tế làm việc rất hiệu quả. 


epoch 


Mỗi lần duyệt một lượt qua tat cá các điểm trên toàn bộ dữ liệu được gọi là một epoch (số 
nhiều epoches). Với GD thông thường, mỗi epoch ứng với một lần cập nhật 0. Với SGD, mỗi 
epoch ứng với N lần cập nhật 0 với N là số điểm dữ liệu. Nhìn vào một mặt, việc cập nhật 
từng điểm một như thế này có thể làm giảm đi tốc độ thực hiện một epoch. Nhưng nhìn vào 
một mặt khác, với SGD, nghiệm có thể hội tụ sau vài epoch. Vì vậy, SGD phù hợp với các 
bài toán có lượng cơ sở dữ liệu lớn và các bài toán yêu cầu mô hình thay đổi liên tục như 
online learning. Với một mô hình đã được huấn luyện từ trước, khi có thêm dí liệu, ta có 
thể chỉ cần chạy thêm một vài epoch nữa là đã có nghiệm hội tụ. 
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Hinh 12.13: Ví du vé giá 
tri hàm mát mát sau mỗi 
iteration khi sử dụng mini- 
batch gradient descent. Hàm 
mát mát nhảy lên nhảy xuống 
(fluctuate) sau mỗi lần cập 
nhật nhưng nhìn chung giảm 
dan và có xu hướng hội tụ. 


loss function 


T T T T T 
0 500 1000 1500 2000 2500 
number of iterations 


Thứ tự lựa chọn điểm dữ liệu 


Một điểm cần lưu ý đó là sau mỗi epoch, chúng ta cần záo trón (shuffle) thứ tự của các dữ 
liệu để đảm bảo tính ngẫu nhiên. Việc này cũng ảnh hưởng tới hiệu năng của SGD. Đây 
cũng chính là lý do thuật toán này có chứa từ stochastic (ngẫu nhiên). 


Một cách toán học, quy tắc cập nhật của SŒD là 


0 — 0 — NVJ (0; Xi, yi) (12.12) 
trong đó J (0; xj, y:) = J,(0) là hàm mát mát với chỉ một điểm dř liệu thú i. Các thuật toán 
biến thể của GD như momentum hay NAG hoàn toàn có thể được áp dụng vào SGD. 


12.6.3 Mini-batch gradient descent 


Khác với SGD, mini-batch sử dung một số lượng k lớn hon một (nhưng vẫn nhỏ hơn tổng 
số điểm dữ liệu N rất nhiều) dé cập nhật ở mỗi iteration. Gióng với SGD, mini-batch GD 
bắt đầu mỗi epoch bằng việc xáo trộn ngẫu nhiên dữ liệu rồi chia toàn bộ di liệu thành các 
mini-batch, mỗi mini-batch có k điểm dữ liệu (trừ mini-batch cuối có thể có ít hơn nếu N 
không chia hết cho k). Ó mỗi vòng lặp, thuật toán này lấy ra một mini-batch để tính toán 
đạo hàm rồi cập nhật. Một epoch cũng là khi thuật toán chạy hết dữ liệu một lượt. Như vậy, 
một epoch bao gồm xấp xỉ N/k làn iteration. Mini-batch GD được sử dung trong hầu hết 
các thuật toán machine learning, đặc biệt là trong deep learning. Giá tri k được gọi là batch 
size (không phải mini-batch size) thường được chọn là khoảng từ vài chục đến vài trăm. 


Hình 12.13 là ví dụ về giá trị của hàm mát mát của một bài toán khác phức tap hơn mỗi 
khi cập nhật tham số Ø khi sử dụng mini-batch gradient descent. Mặc dù giá trị của hàm 
mát mát sau các vòng lặp không phải lúc nào cũng giảm, chúng ta vẫn thấy rằng giá trị này 
có xu hướng giảm và hội tụ. 
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12.7 Tháo luán 

12.7.1 Diéu kién dimg thuát toán 

Có một điểm chúng ta chưa đề cập kỹ-khi nào thì nên dừng thuật toán gradient descent? 
Trong thực nghiệm, chúng ta có thể kết hợp các phương pháp sau. 

1. Giới hạn số vòng lặp. Một nhược điểm của cách làm này là có thể thuật toán dừng lại 


trước khi nghiệm đủ tốt. Tuy nhiên, đây là phương pháp phổ biến nhất và cũng để đảm 
bảo rằng chương trình chạy không quá lâu. 


2. So sánh gradient của nghiệm tại hai lần cập nhật liên tiếp, khi nào giá trị này đủ nhỏ 
thì dừng lại. Phương pháp này cũng có một nhược điểm lớn là việc tính đạo hàm đôi khi 
trở nên quá phức tạp. 

3. So sánh giá trị của hàm mát mát của nghiệm tại hai làn cập nhật liên tiếp, khi nào giá 
trị này đủ nhỏ thì dừng lại. Nhược điểm của phương pháp này là nếu tại một thời điểm, 
đồ thị hàm só có dạng bang phẳng tại một khu vực nhung khu vực đó không chứa điểm 


local minimum, thuật toán cũng dừng lại trước khi đạt giá trị mong muốn. 


4. Vừa chạy gradient descent, vừa kiểm tra kết quả. Một kỹ thuật thường được sử dụng 
nữa là cho thuật toán chạy với số lượng vòng lặp cực lớn. Trong quá trình chạy, chương 
trình thường xuyên kiểm tra chất lượng mô hình bằng cách áp dụng nó lên dữ liệu tập 
huấn luyện và/hoặc validation. Đồng thời, mô hình sau một vài vòng lặp được lưu lại 
trong bộ nhớ. Mô hình tốt nhất có thể không phải là mô hình với số vòng lặp lớn hơn. 


12.7.2 Đọc thêm 

Source code trong chương này có thể được tìm thấy tại https: // goo.gl/ RJrRu?. 

Ngoài các thuật toán đã đề cập trong chương này, rất nhiều thuật toán khác giúp cải thiện 
gradient descent được đề xuất gần đây [Rud16]. Ban đọc có thé đọc thêm AdaGrad [DHS11], 
RMSProp [TH12], Adam [KB14], v.v.. 


Các trang web và video dưới đây cũng là các tài liệu tốt cho gradient descent. 


1. An overview of gradient descent optimization algorithms (https: // goo.gl/ A Gubbg). 
2. Stochastic Gradient descent-Wikipedia (https: // goo.gl/ pmuLzk). 

3. Stochastic gradient descent-Andrew Ng (https:// goo.gl/ jg Bf2N ). 

4. An Interactive Tutorial on Numerical Optimization (https: // goo.gl/ t85mwA ). 


5. Machine Learning cơ bán, Bài 7, 8 (https:// goo.gl/ USTTPP ). 
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Chuong 13 


Perceptron learning algorithm 


13.1 Giới thiệu 


Trong chương này, chúng ta cùng tìm hiểu một trong các thuật toán đầu tiên trong lịch sử 
machine learning. Đây là một thuật toán phân lớp đơn giản có tên là perceptron learning 
algorithm (PLA [Ros57]). Thuật toán này được thiết kế cho bài toán phân lớp nhị phân 
(binary classification) với chỉ hai lớp dit liệu. Day là nền tang cho các thuật toán liên quan 
tới neural networks rồi deep learning sau này. 


Già sử có hai class đã được gán nhãn được minh hoa trong Hình 13.1a tương ứng với tập 
các điểm màu xanh và tập các điểm màu đỏ. Bài toán đặt ra là từ dữ liệu của hai tập được 
gan nhãn cho trước, hãy xây dựng một bộ phan lớp có khả năng dự đoán được nhãn (màu) 
của một điểm dữ liệu mới, cháng hạn điểm màu xám. 


Nếu coi mỗi vector đặc trưng là một điểm trong không gian nhiều chiều, bài toán phân lớp 
có thể được coi như bài toán xác định mỗi điểm trong không gian thuộc vào lớp nào. Nói 
cách khác, nếu ta coi mỗi lớp chiếm một hoặc vài vùng lãnh thổ trong không gian, ta cần 
đi tìm ranh giới (boundary) giữa các vùng đó. Ranh giới đơn giản nhất trong không gian 
hai chiều là một đường thang, trong không gian ba chiều là một mặt phẳng, trong không 
gian nhiều chiều hơn là một siêu mat phẳng hoặc siêu phẳng (hyperplane). Những ranh giới 
phẳng này được coi là đơn giản vì chúng có thể được biểu diễn dưới dạng toán học bằng 
một hàm số tuyến tính. Tat nhiên, ta dang giả sử rằng tồn tại một siêu phẳng như vậy. 
Hình 13.1b minh họa một đường tháng phân chia hai lớp trong không gian hai chiều. Lãnh 
thổ của hai lớp xanh và đỏ được mô tả bởi hai nửa mặt phẳng với màu tương ứng. Trong 
trường hợp này, điểm dữ liệu mới hình tam giác được phân vào lớp đỏ. 


Perceptron learning algorithm (PLA) là một thuật toán đơn giản giúp tìm một ranh giới 
siêu phẳng cho bài toán phân lớp nhị phân, với giả sử rằng tồn tại ranh giới phẳng đó. Nếu 
hai lớp dữ liệu có thể được phân chia hoàn toàn bằng một siêu phẳng, ta nói rằng hai lớp 
đó linearly separable. 
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Hình 13.1: Bài toán phân lớp nhi phân trong không gian hai chiều. (a) Cho hai lớp dữ liệu vuông 
xanh va tron đỏ, hãy xác dinh diém dữ liệu tam giác xám thuộc lớp nào. (b) Ví dụ về một ranh 
giới phang của hai lớp, diém tam giác được phân vào lóp đỏ với đường ranh giới này. 


13.2 Thuật toán perceptron 


13.2.1 Cách phân lớp của perceptron learning algorithm 


Giả sử X = [xi, x»,..., xw] € R^* là ma trận chứa các điểm dữ liệu huấn luyện mà mỗi 
cột x; là một điểm dữ liệu trong không gian d chiều. Giả sử thêm các nhãn tương ứng với 
từng điểm dữ liệu được lưu trong một vector hàng y = [y1,y2,--.,yn] € RÁN, với y; = 1 
nếu x; thuộc lớp thứ nhất (vuông xanh) và y; 2 —1 nếu x; thuộc lớp còn lại (tròn đỏ). 


Tại một thời điểm, giả sử ta tìm được ranh giới là một siêu phẳng có phương trình 


fv(X) = wizi + +++ + wata + Wo = WTX + wo = 0 (13.1) 


với w € R? là vector hệ số và wọ là số hang tự do được goi là bias. Bằng cách sử dung bias 
trick (xem Mục 7.2.4), ta có thể coi phương trình siêu phẳng là f(x) = wx = 0 với x ở 
đây được ngầm hiểu là vector đặc trưng mở rộng thêm một đặc trưng bằng 1. Vector hệ số 
w cũng chính là vector pháp tuyến của siêu phẳng w"x = 0. 


Trong không gian hai chiều, giả sử đường thang w424 + waa + wo = 0 chính là nghiệm cần 
tìm như Hình 13.2a. Nhận xét rằng các điểm nằm về cùng một phía so với đường thắng này 
sẽ làm cho hàm số ƒ„(x) mang cùng dau. Chỉ cần doi dau của w nếu cần thiết, ta có thể 
giả sử các điểm nằm trong nửa mặt phẳng nền xanh mang dấu dương (+), các điểm nằm 
trong nửa mặt phẳng nền đỏ mang dấu âm (-). Các dấu này cũng tương đương với nhãn y 
của mỗi nhãn. Vậy nếu w là một nghiệm của bài toán perceptron, với một điểm dữ liệu mới 
x chưa được gán nhãn, ta có thể xác định nhãn của nó bằng một phép toán đơn giản: 


2 Tốc 
label) = k A i (13.2) 


T 


Nói cách khác, label(x) = sgn(w?x) với sgn là hàm xác định dấu, giả sử rằng sgn(0) = 1. 
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Xa 


(a) Đường thẳng phân chia không có lỗi. (b) Đường tháng phân chia có lỗi tại các điểm khoanh tròn. 


Hình 13.2: Ví dụ về các đường thẳng trong không gian hai chiều: (a) một nghiệm của bài toán 
PLA, (b) không phải nghiệm. 


13.2.2 Xây dung hàm mát mát 


Tiép theo, cháng ta xày dung mót hàm mát mát vói tham só w bát ky. Vàn trong khóng 
gian hai chiều, giả sử đường tháng w,11 + a#a + wo = 0 được cho nhu Hình 13.2b. Các điểm 
được khoanh tròn là các điểm bị phân lớp lỗi (misclassified). Ta luôn muốn rằng không có 
điểm nào bị phân lớp lỗi. Một cách tự nhiên, ta có thể sử dụng hàm đếm số lượng các điểm 
bị phân lớp lỗi và tìm cách tối thiểu hàm số này. 


Xét một điểm x; bất kỳ với nhãn y;. Nếu nó bị phân lớp lỗi, ta phải có sen(w"x) Æ yi. Vì 
hai giá trị này chỉ bằng 1 hoặc —1, ta sẽ có y;sgn(w?x) = —1. Nhu vậy, hàm số đếm số 
lượng điểm bị phân lớp lỗi có thể được viết dưới dạng 


A(w) = Y, (—wsgn(wfx;)) (13.3) 


x ¿EM 


trong đó M ký hiệu tập các điểm bị phân lớp lỗi ứng với mỗi w. Mục đích cuối cùng là đi 
tìm w sao cho không có điểm nào bi phân lớp lỗi, tức J,(w) = 0. Một điểm quan trọng, đây 
là một hàm số rời rac nên rất khó được tối uu. Chúng ta cần tìm một hàm mát mát khác 
để việc tối ưu khả thi hơn. Xét hàm mát mát 


J(w) = Y > (—y¡w"x;) (13.4) 


Xj €. M 


Hàm J(w) khác một chút với hàm .;(w) ở chó hàm rời rac sgn đã được lược bó. Ngoài ra, 
khi một điểm bi phân lớp lỗi x; nằm càng xa ranh giới, giá trị —y;w? x; sẽ càng lớn, nghĩa 
là hàm mát mát sẽ lớn lên. Vì tổng vẫn được tính trên các tập điểm bi phân lớp lỗi M, giá 
trị nhỏ nhất của hàm mất mát này cũng bằng không nếu không có điểm nào bị phân lớp 
lỗi. Vì vậy, J(w) được cho là tốt hơn J,(w) vì nó trùng phat rất nặng những điểm lấn sáu 
sang lãnh thổ của lớp kia. Trong khi đó, J,() trừng phạt các điểm phân lớp lỗi một lượng 
như nhau bằng một, bất ké chúng gần hay xa ranh giới. 
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13.2.3 Tối ưu hàm mát mát 


Tại một thời điểm, nếu ta chỉ quan tâm tới các điểm bị phân lớp lỗi thì hàm số J(w) khả vi 
tại mọi w, vậy ta có thể sử dụng gradient descent hoặc stochastic gradient descent (SGD) 
để tối ưu hàm mát mát này. Chúng ta sẽ giải quyết bài toán tối uu hàm mát mát J(w) bằng 
SGD bằng cách cập nhật w tại mỗi vòng lặp dựa trên chỉ một điểm dữ liệu. Với chỉ một 
điểm dữ liệu x; bị phân lớp lỗi, hàm mát mát và dao hàm của nó lần lượt là 


J(w; xi; yi) = —yiw xj; Vw (W5 Xi; yi) = —ViXi (13.5) 

Vay quy tắc cập nhật w sử dung SGD là 
we w —n(—yixi) = wt nyixi (13.6) 
với 7 là learning rate. Trong PLA, được chọn bằng 1. Ta có một quy tắc cập nhật rất gon: 
Wit] = Wit yiXi (13.7) 


Nói cách khác, với mỗi điểm x; bị phân lớp lỗi, bằng cách nhân điểm đó với nhãn y; của nó, 
lấy kết quả cộng vào w hiện tại, ta sẽ được w mới. Tiếp theo, ta thấy rằng 


WiXi = (We + yix) xi = wi xi + Yi l|x [| (13.8) 


Nếu y; = 1, vì x; bị phân lớp lỗi nén wZx; < 0. Cũng vi y; = 1 nên y;|xi|2 = |[x;||2 > 1 (chú 
ý x; là một vector đặc trưng mó rộng với một phan tử bằng 1). Từ đó suy ra wZ, x; > Ww; Xi. 
Nói cách khác, —y;wZ,,x; < —yiw/ x;. Diều tương tu cũng xảy ra với y; = —1. Việc này chỉ 
ra rằng đường thắng được mô tả bởi w,, 1 có xu hướng khiến hàm mát mát tại điểm bị phân 
lớp lỗi x; giảm đi. Chú ý rằng tiệc này không dám bảo hàm mát mát trên toàn bó dữ liệu sẽ 
giám, tà rất có thể đường thẳng mới sẽ làm cho một điểm lúc trước được phân lớp đúng trở 
thành một điểm bị phân lớp sai. Tuy nhiên, thuật toán nay được dam báo sẽ hội tu sau một 
số hữu hạn bước. Thuật toán perceptron được tóm tắt dưới đây. 


Thuật toán 13.1: Perceptron 

1. Tai thời điểm t = 0, chon ngáu nhién mót vector hé só wo. 

2. Tai thói diém t, néu khóng có điểm đữ liệu nào bi phân lớp lỗi, dừng thuật toán. 
3. Giả sử x; là một điểm bị phân lớp lỗi. Cập nhật 


Wii = W + yiXi 


4. Thay doit = t + 1 rồi quay lại Bước 2. 


13.2.4 Chứng minh hội tụ 


Gọi w* là một nghiệm của bài toán phân lớp nhi phan với hai lớp linearly separable. Nghiệm 
này luôn tồn tại khi hai lớp là linearly separable. Ta sẽ chứng minh Thuật toán 13.1 kết thúc 
sau một số hữu hạn bước bằng phản chứng. 
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Giả sử ngược lại, tồn tại một w mà Thuật toán 13.1 chạy mãi mãi. Trước hết ta thấy rằng, 
với œ > 0 bất kỳ, nếu w* là nghiệm, œw* cũng là nghiệm của bài toán. Xét dãy số không 
âm ualt) = ||w, — ww*||3. Theo giả thiết phản chứng, tồn tai một điểm bị phân lớp lỗi khi 
dùng nghiệm w;. Giả sử đó là điểm x; với nhãn y;. Ta có 


ualt + 1) = |IW¿+i — aw" | (13.9) 
= ||w¡ + yix; — ow" || (13.10) 
= [[w, — ow" lỗ + yj lx lỗ + 2x7 (we — ow?) (13.11) 
< ua(f) + ||xi||3 — 2aw;x; w^ (13.12) 


Dau nhỏ hơn ở dòng cuối là vi y? = 1 và 2;xŸw; < 0. Nếu tiếp tục đặt 


B = pue lll, y= , min yg w (13.13) 
và chon a = Z, ta sẽ có 0 < ualt + 1) < ualt) + 8? — 2ay = ualt) — 82. Ta có thé chọn giá 
trị này vì (13.12) đúng với œ bất kỳ. Điều này chỉ ra rằng nếu luôn có điểm bị phân lớp lỗi 
thì day ua(t) là một dãy giảm, bị chặn dưới bởi 0, và phần tử sau kém phan tử trước ít nhất 
một lượng là 6? > 0. Điều vô lý này chứng tỏ đến một lúc nào đó sẽ không còn điểm nào bi 
phân lớp lỗi. Nói cách khác, thuật toán perceptron hội tụ sau một số hữu hạn bước. 


13.3 Ví du và minh hoạ trên Python 


Thuật toán 13.1 có thể được triển khai như sau: 


import numpy as np 
def predict(w, X): 
''' predict label of each row of X, given w 
X: a 2-d numpy array of shape (N, d), each row is a datapoint 
w init: a 1-d numpy array of shape (d) ''' 
return np.sign(X.dot (w) ) 


def perceptron(X, y, w init): 
''' perform perceptron learning algorithm 
X: a 2-d numpy array of shape (N, d), each row is a datapoint 


y: a 1-d numpy array of shape (N), label of each row of X. y[i] = 1/-1 
w init: a 1-d numpy array of shape (d) ''"' 
w = w init 


while True: 
pred = predict(w, X) 
# find indexes of misclassified points 


mis idxs = np.where(np.equal(pred, y) == False)[0] 
# number of misclassified points 

num mis = mis idxs.shape[0] 

if num mis == 0: # no more misclassified points 


return w 
# random pick one misclassified point 


random id = np.random.choice (mis idxs, 1) [0] 
# update w 
w = w + y[random id]*X[random id] 
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iter 1/6 ¡ter 2/6 ¡ter 3/6 


3 -3 


Hinh 13.3: Minh hoa thuát toán perceptron. Các diém màu lam thuóc lóp 1, các diém màu dó 
thuộc lớp —1. Tai mỗi vòng lặp, đường tháng màu den là đường ranh giới. Vector màu luc là 
W. Diém được khoanh tròn là một điểm bị phân lớp lỗi x;. Vector màu cam thể hiện vector x;. 
Vector màu do chính là w1. Néu yi = 1 (màu lam), vector màu đỏ báng tóng hai vector kia. 
Nếu yi = —1, vector màu đỏ bằng hiệu hai vector kia. 


Trong đó, hàm predict(w, X) dự đoán nhãn của mỗi hàng của X dựa trên công thức (13.2). 
Hàm perceptron(X, y, w_init) thực hiện thuật toán PLA với tập dữ liệu x, nhãn y và nghiệm 
ban đầu w_init. 


Để kiểm tra đoạn code trên, ta áp dụng nó vào một ví dụ với dt liệu trong không gian hai 
chiều như dưới đây. 


means = [[-1, 0], [1, 0]] 

cov = [[¿3; 42], [+2;- .3]] 

N = 10 

XO = np.random.multivariate_normal (means[0], cov, N) 
X1 = np.random.multivariate normal(means[1], cov, N) 
X = np.concatenate((X0, X1), axis = 0) 

y = np.concatenate((np.ones(N), -1*np.ones (N))) 


Xbar = np.concatenate((np.ones((2*N, 1)), X), axis = 1) 
w init = np.random. randn (Xbar.shape[1]) 
w = perceptron(Xbar, y, w_init) 


Mỗi lớp có 10 phần tử, là các vector ngẫu nhiên lấy theo phân phối chuẩn có ma trận hiệp 
phương sai cov và vector ky vọng được lưu trong means. Hinh 13.3 minh hoạ nghiệm sau mỗi 
vòng lặp. Ta thấy rằng perceptron cho bài toán này hội tụ sau chỉ sau sáu vòng lặp. 
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z= a — ae Input layer Output layer Input layer Output layer 


(a) (b) (c) 


Hình 13.4: Biểu diễn perceptron va linear regression dưới dang neural network. (a) perceptron 
day đủ, (b) perceptron thu gon, (c) linear regression thu gon. 


13.4 M6 hinh neural network dau tién 
Hàm só dự đoán đầu ra của perceptron label(x) = sgn(w?x) có thể được mó tả trên 
Hình 13.4a. Đây chính là dạng đơn giản của neural network. 


Đầu vào của network x được minh họa bằng các node màu lục với node xo luôn luôn bằng 
1. Tập hợp các node mau lục được gọi là tang đầu vào (input layer). Só node trong input 
layer là d+1. Đôi khi node x = 1 này được an đi. Các trong só wo, w1,..., wg được gan vào 
các mũi tên đi tới node z = yam wir; = WTx. Node y = sgn(z) là output của network. Ký 
hiệu hinh chữ Z ngược màu lam trong node y thé hiện đồ thị của hàm sgn. Hàm y = sgn(z) 
đóng vai trò là một hàm kích hoạt (activation function). Dữ liệu đầu vào được đặt vào input 
layer, lấy tổng có trọng số lưu vào biến z rồi đi qua hàm kích hoạt để có kết quả ở . Đây 
chính là dạng đơn giản nhất của một neural network. Perceptron cũng có thể được vẽ giản 
lược như Hình 13.4b, với ẩn ý rằng dữ liệu ở input layer được lấy tổng có trọng số trước khi 
đi qua hàm lấy dấu y = sgn(z). 


Các neural network có thé có một hoặc nhiều node ở output tao thành một tang dau ra 
(output layer), hoặc có thể có thêm các layer trung gian giữa input layer và output layer, 
được gọi là tầng ẩn (hidden layer). Các neural network thường có nhiều hidden layer và các 
layer có thể có các hàm kích hoạt khác nhau. Chúng ta sẽ đi sâu vào các neural network 
với nhiều hidden layer ở Chương 16. Trước đó, chúng ta sẽ tìm hiểu các neural network đơn 
giản hơn không có hidden layer. 


Để ý rằng nếu ta thay activation function bởi hàm identity y — z, ta sẽ có một neural 
network mô tá linear regression nhu Hinh 13.4c. Với đường tháng chéo màu xanh thể hiện 
đồ thị hàm số y = z. Các trục tọa độ đã được lược bỏ. 


Mô hình perceptron ở trên khá giống với một node nhỏ của dây thần kinh sinh học như 
Hình 13.5. 
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Schematic of a biological neuron. 


Hinh 13.5: Cáu trúc cúa mót neuron thán kinh sinh hoc. Nguón: Single-Layer Neural Networks 
and Gradient Descent (https: // goo.gl/ R¡BRED). 


Dữ liệu từ nhiều dây thần kinh (tương tự nhu z;) đi về môt cell nucleus. Cell nucleus đóng 
vai trò như bộ lấy tổng có trọng số ES wizi. Thong tin này sau đó được tổng hợp (tương 
tự nhu hàm kích hoạt) và đưa ra ở output. Tên goi neural network hoặc artificial neural 
network được khởi nguồn từ đây. 


13.5 Thảo Luận 


PLA có thể cho vô số nghiệm khác nhau. Nếu hai lớp dữ liệu là linearly separable thì 
có vô số đường thằng ranh giới của hai lớp đữ liệu đó như trên Hình 13.6a. Tất cả các đường 
tháng màu đen đều có thể đóng vài trò là đường ranh giới. Tuy nhiên, các đường khác nhau 
sẽ quyết định điểm hình tam giác thuộc các lớp khác nhau. Trong các đường đó, đường nào 
là tốt nhất? Và định nghĩa “tốt nhất” được hiểu theo nghĩa nào? Các câu hỏi này sẽ được 
thảo luận kỹ hơn trong Chương 26. 


PLA đòi hỏi hai lớp dữ liệu phải linearly separable. Hình 13.6b mô tả hai lớp dữ liệu 
tương đối linearly separable. Mỗi lớp có một điểm coi nhu nhiéu nằm lẫn trong các điểm 
của lóp kia. PLA sẽ không làm việc, tức không bao giờ dừng lại, trong trường hợp này vì 
với mọi đường thắng ranh giới, luôn có ít nhất hai điểm bị phân lớp lỗi. 

Trong một chừng mực nào đó, đường thang màu đen vẫn có thé coi là một nghiệm tốt vì 
nó đã giúp phân loại chính xác hầu hết các điểm. Việc không hội tụ với dữ liệu gân linearly 


separable chính là một nhược điểm lớn của PLA. 


Nhược điểm này có thể được khắc phục bằng pocket algorithm dưới đây. 
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Xa 


(a) (b) 


Hình 13.6: Với bài toán phân lóp nhị phân, PLA có thể (a) cho vô só nghiệm, hoặc (b) vô 
nghiệm thậm chí với chỉ một nhiễu nhỏ. 


Pocket algorithm [AMMIL12]: một cách tự nhiên, nếu có một vài nhiéu, ta sẽ đi tìm 
một đường thắng phân chia hai class sao cho có ít điểm bị phân lớp lỗi nhất. Việc này có 
thể được thực hiện thông qua PLA với một chút thay đổi nhỏ: 


1. Giới hạn số lượng vòng lặp của PLA. Đặt nghiệm w sau vòng lặp đầu tiên và số điểm bị 
phân lớp lỗi vào trong tái quần (pocket). 


2. Mỗi lần cập nhật nghiệm w, mới, ta đếm xem có bao nhiêu điểm bị phân lớp lỗi. So sánh 


số điểm bi phân lớp lỗi này với số điểm bị phân lớp lỗi trong pocket, néu nhỏ hơn thì lấy 
nghiệm cũ ra, đặt nghiệm mới này vào. Lặp lại bước này đến khi hết số vòng lặp. 


Thuật toán này giống với thuật toán tìm phần tử nhỏ nhất trong một mảng một chiều. 


Source code cho chương này có thể được tìm thấy tại https:// goo.gl/ tisS Tq. 
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Logistic regression 


14.1 Giới thiệu 
14.1.1 Nhắc lại hai mô hình tuyến tính 


Hai mô hình tuyến tính đã thảo luận trong cuốn sách này, linear regression và perceptron 
(PLA), đều có thể viết chung dưới dang y = f(w?x) với f(s) là một hàm kích hoạt. Với 
f(s) = s trong linear regression, và f(s) = sgn(s) trong PLA. Trong linear regression, tích 
vô hướng w"x được truc tiếp sử dung dé du đoán output y, loại này phù hợp nếu ta cần dự 
đoán một đầu ra không bị chặn trên và dưới. Trong PLA, đầu ra chỉ nhận một trong hai 
giá trị 1 hoặc —1, phù hợp với các bài toán phân lớp nhị phân. Trong chương này, chúng 
ta sẽ thảo luận một mô hình tuyến tính với một hàm kích hoạt khác, thường được áp dụng 
cho các bài toán phân lớp nhị phân. Trong mô hình này, đầu ra có thể được thể hiện dưới 
dạng xác suất. Ví dụ, xác suất thi đỗ nếu biết thời gian ôn thi, xác suất ngày mai có mưa 
dựa trên những thông tin đo được trong ngày hôm nay, v.v.. Mô hình này có tên là logistic 
regression. Mac dù trong tên có chứa từ regression, logistic regression thường được sử dung 
nhiều hơn cho các bài toán phân lớp. 


14.1.2 Một ví dụ nhỏ 


Bảng 14.1: Thời gian ôn thi (Hours) và kết quả thi của 20 sinh viên. 


Hours| Pass || Hours Pass||Hours|Pass || Hours|Pass 
0.5 0 0.75 0 1 0 1.25 0 
1.5 0 1.75 0 1.75 1 2 0 
2.25 1 2.5 0 2.75 1 4 0 
3.25 1 3.5 0 4 1 4.25 1 
4.5 1 4.75 1 5 1 5.5 1 


Xét một ví du về sự liên quan giữa thời gian ón thi và kết quả thi của 20 sinh viên được 
cho trong Bảng 14.1. Bài toán đặt ra là từ dữ liệu này hãy xây dựng một mô hình đánh 
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Hinh 14.1: Ví du vé két quá thi 


gi = H H E NH dua trên só giờ ôn tập. Truc hoành 
a thể hiển thời gian ôn tập của môi 
Ci daras wow d sinh Mu trục tung gồm hai giá trị 
S 0/fail (các diém màu dó) và 1/pass 


0 1 2 3 4 (các diém màu xanh). 
hours studying 


al 
a 


Hình 14.2: Một vài ví dụ vé 
hard threshold các hàm kích hoạt khác nhau. 
f(s) = p= 


f(s) = + 


linear 


giá khả năng đỗ của môt sinh viên dựa trên thời gian ôn thi. Dữ liệu trong Bảng 14.1 được 
mô tả trên Hình 14.1. Nhìn chung, thời gian học càng nhiều thì khả năng đỗ càng cao. Tuy 
nhiên, không có một ngưỡng nào để có thể khẳng định rằng mọi sinh viên học nhiều thời 
gian hơn ngưỡng đó sẽ chắc chắn đỗ. Nói cách khác, dữ liệu của hai lớp này là không linearly 
separable, và vì vậy PLA sẽ không hữu ích ở đây. Tuy nhiên, thay vì dự đoán chính xác hai 
giá trị đỗ/trượt, ta có thể dự đoán xác suất để một sinh viên thi đỗ dựa trên thời gian ôn 
thi. 


14.1.3 MO hinh logistic regression 


Quan sát Hinh 14.2 vói các hàm kích hoat f(s) khác nhau. 


e Dường màu vàng biểu diễn một hàm kích hoạt tuyến tính. Duóng này không bị chán nên 
không phù hợp cho bài toán đang xét với đầu ra là một giá trị trong khoảng [0, 1]. 


e Dường màu đỏ tương tự với hàm kích hoạt của PLA với ngưỡng có thé khác không!. 


e Các đường màu lam và lục phù hợp với bài toán đang xét hơn. Chúng có một vài tính 
chất quan trọng: 


— Là các hàm số liên tục nhận giá trị thực, bị chặn trong khoảng (0, 1). 

— Nếu coi điểm có tung độ là 1/2 là ngưỡng, các điểm càng xa ngưỡng về phía bên trái 
có giá trị càng gần 0, các điểm càng xa ngưỡng về phía bên phải có giá trị càng gần 
1. Điều này khớp với nhận xét rằng học càng nhiều thì xác suất đỗ càng cao và ngược 


lại. 


— Hai hàm này có đạo hàm moi nơi, vì vậy có thể được lợi trong việc tối ưu. 


Đường này chỉ khác với activation function của PLA ở chỗ hai class là 0 và 1 thay vì -1 và 1. 
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Hám sigmoid vá tanh 


Trong số các hàm só có ba tính chất nói trên, hàm sigmoid: 


1 
| l-ce-^s 


f(s) 2 g(s) (14.1) 


được sử dung nhiều nhất, vì nó bi chán trong khoảng (0, 1). Thêm nữa, 


lim o(s)=0; lim o(s)=1 (14.2) 
s>—œ s—>+oo 
Thú vị hơn, 
e? 1 e? 


gs) 


(1 ES es)? — lc e-51-4e-5 = Ø(s)(1 ni c (s)) (14.3) 


Vói dao hàm don giàn, hàm sigmoid dugc sú dung róng rái trong neural network. Các ban 
sé sớm thấu hàm sigmoid được khám phá ra như thé nào. 


—8 


e =e 
trong khoảng (—1, 1). Ban đọc có thể chứng minh được rang tanh(s) = 20(2s) — 1. 


Ngoài ra, ham tanh cũng hay được sử dung: tanh(s) = . Ham số này nhận giá tri 


Hàm sigmoid có thể được thực hiện trên Python như sau. 


def sigmoid(S) : 
"nw 
$: an numpy array 


return sigmoid function of each element of S 
"mm 


return 1/(1 + np.exp(-S)) 


14.2 Hàm mát mát và phuong pháp tói uu 
14.2.1 Xày dung hàm mát mát 


Vói các mó hinh vói hàm mát mát màu lam và luc nhu trén, ta có thé giá sú ráng xác suát 


dé một điểm dữ liệu x rơi vào lớp thứ nhất là f(w7x) và roi vào lớp còn lai là 1 — f(w?x): 
p(yi = 1|x;; w) = f(w^x;) (14.4) 
p(¡ = 0|xi; w) =1— f(wx;) (14.5) 


trong đó p(y; = 1|x;;w) được hiểu là xác suất xảy ra sự kiện đầu ra y; = 1 khi biết tham 
só mô hinh w và dí liệu đầu vào x;. Mục đích cuối cùng là là tìm các hệ số w sao cho với 
các điểm dữ liệu ứng với y; = 1, f(w*x;) gần với 1, và ngược lại. Ký hiệu z; = f(w*x;), hai 
biểu thức (14.4) và (14.5) có thể được viết chung dưới dạng 


p(yi[xa w) = 24 (1 — 2,) Y (14.6) 
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Biểu thức này tương đương với hai biểu thức (14.4) và (14.5) ở trên vì khi y; ^ 1, phần thứ 
hai của về phải sẽ bằng 1, khi y, = 0, phần thứ nhất sẽ bằng 1. Chúng ta muốn mô hình gần 
với dữ liệu đã cho nhất, tức xác suất này đạt giá trị cao nhất. 


Xét toàn bộ test set với ma tran dữ liệu X = [x, x», ..., xw] € RÁN và vector đầu ra tương 
ứng với mỗi cột y = [y1, yo,---, yn]. Ta cần giải bài toán tối uu 
w = arg max p(y|X; w) (14.7) 


Dây chính là một bài toán maximum likelihood estimation với tham số mô hình w cần được 
ước lượng. Giả sử rằng các điểm dữ liệu được sinh ra một cách ngẫu nhiên độc lập với nhau, 


ta có thể viết 
N N 


p(y|X; w) = [ [nil ve) = |[z#0— 2) (14.8) 


i=1 i=1 


Lấy logarit tự nhiên, đổi dấu, và lấy trung bình, ta thu được ham số 
1 ja 
J(w) = -5 logp(y|X; w) = — $ (ulog z + (1 — ys) log(1 — z:)) — (149) 
il 


vói chá $ ráng z; là mót hàm só cúa w và x;. Hàm só này chính là hàm mát mát cúa logistic 
regression. Ta cần đi tim w để J(w) đạt giá trị nhỏ nhất (vì ta đã đổi dấu của biểu thức 
trong dấu argmax của (14.7)). 


14.2.2 Tối uu hàm mát mát 


Bài toán tối uu hàm mất mát của logistic regression có thể được giải quyết bằng stochastic 
gradient descent (SGD). Tại mỗi vòng lặp, w sẽ được cập nhật dựa trên một điểm dữ liệu 
ngẫu nhiên. Hàm mát mát của logistic regression với chỉ một điểm dữ liệu (x;,y;) và dao 
hàm của nó lần lượt là 


J(w; Xi yi) = —(yilog z + (1 — yi) log(1 — z;)) (14.10) 


Y; 1=Y Zi — Yi 
wJ(w;i Xi, yi) = -(Ż — = 
VwJ(WXi y) = -Ë ENT 


(Vwz;) (14.11) 


ở đây ta đã sử dung quy tắc chuỗi dé tính dao hàm với z; = f(w*x). Dé cho biểu thức nay 


trở nên gọn và đẹp hon, ta sẽ tìm hàm z = f(w*x) sao cho mẫu số bị triệt tiêu. 


Nếu đặt s =w"x, ta sẽ có 


Ozi Oz; 
boum VS fr 14.12 
Vie PP (Va) 2X ( ) 
Một cách tự nhiên, ta sẽ tìm hàm số z = f(s) sao cho: 
¬ a (14.13) 


dé triệt tiêu mẫu só trong biểu thức (14.11). Phương trình vi phân này không quá phức tap. 
Thật vậy, (14.13) tương đương với 
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lôi 
M =i: 
z(1— z) 
1 1 
> (¿+71 = 8s 
> log z — log(l — z) =s+C 
> log ? =s+C 
-z 
a 2 — pstC 
1=2 
e z = etC m eu 
s+C 1 
e £ = ơ(s +C) 


= 1+es+C — Ies- 


với C là một hằng só. Don giản chon C = 0, ta được z = f(w?x) = ø(s). Dây chính là lý 
do hàm sigmoid được ra đời. Logistic regression với hàm kích hoạt là hàm sigmoid được sử 
dụng phổ biến nhất. Mô hình này còn có tên là logistic sigmoid regression. Khi nói logistic 
regression, ta ngầm hiểu rằng đó chính là logistic sigmoid regression. 


Thay (14.12) và (14.13) vào (14.11) ta thu được 

Vs (wW; xi, yi) = (zi — yi)xi = (o(w xi) — yj)xi (14.14) 
Và cóng thúc càp nhát nghiém cho logistic sigmoid regression sú dung SGD là 

w  W— n(zi — 9¡)Xị = w — n(o(w! xi) — yj)xi (14.15) 
với r là một learning rate dương. 


14.2.3 Logistic regression với weight decay 


Một trong các kỹ thuật phổ biến giúp tránh overfitting với các neural network là sử dụng 
weight decay. Weight decay là một kỹ thuật regularization, trong đó một đại lượng tỉ lệ với 
bình phương norm 2 của vector hệ số được cộng vào hàm mất mát để hạn chế độ lớn của 
các hệ số. Hàm mát mát trở thành 


N 

= 1 A 

J(w) = N ` (-» log z; — (1 — yi) log(1 — zi) + lvii) (14.16) 
i-l 


Công thức cập nhật SGD cho w với hàm này cũng đơn giản vi phần regularization có dao 
hàm đơn giản: 
w + w — n ((o(w^x;) — yi)x; + Aw) (14.17) 


14.3 Triển khai thuật toán trên Python 


Hàm ước lượng xác suất cho mỗi điểm dữ liệu và hàm tính giá trị hàm mất mát với weight 
decay có thể được thực hiện như sau trong Python. 
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def prob (w, X): 
"mnm 
X: a 2d numpy array of shape (N, d). N datatpoint, each with size d 
w: a 1d numpy array of shape (d) 


return sigmoid (X.dot (w) ) 


def loss(w, X, y, lam): 
"mnm 
X, w as in prob 
y: a 1d numpy array of shape (N). Each elem = 0 or 1 


"nu" 


Z = prob(w, X) 
return -np.mean(y*np.log(z) + (1-y)*np.log(1-z)) + 0.5*lam/X.shape[0]*np.sum (w*w) 


Từ công thức (14.17), ta có thé thuc hién thuát toán tim w cho logistic regression nhu sau. 


def logistic regression(w init, X, y, lam = 0.001, lr = 0.1, nepoches = 2000): 


# lam - reg paramether, lr - learning rate, nepoches number of epoches 
N, d = X.shape[0], X.shape[1] 
w = W old = w init 
loss_hist = [loss(w_init, X, y, lam)] # store history of loss in loss_hist 
ep = 0 
whil p < nepoches: 
ep += 1 
mix_ids = np.random.permutation (N) 
for 1 in mix ids: 
xi = X[i] 
yi = yli] 
zi = sigmoid(xi.dot (w)) 
w — w — lr*((zi - yi)*xi + lam*w) 
( 


loss hist.append(loss(w, X, y, lam)) 
if np.linalg.norm(w - w old)/d « le-6: 
break 
w old = w 
return w, loss hist 


14.3.1 Logistic regression cho ví du ban dàu 


Áp dung vào bài toán ví du ban dàu. 


X = np.array([[0.50, 0.75, 1.00, 1.25, 1.50, 1.75, 1.75, 2.00, 2.25, 2.50, 
2.75, 3400, 3.25, 2.50, 4.00, 4.25, 4.50, 4.75, 5.00, 5;:50]]).T 
y = np.array( (0, 0, 07 O, 0, 0; l, 0, 1y 0, 1, Q, I; 0, 1, 1, L, 1, 1; 1]) 


# bias trick 


Xbar = np.concatenate((X, np.ones((N, 1))), axis = 1) 

w init = np.random.randn (Xbar.shape[1]) 

lam = 0.0001 

w, loss_hist = logistic_regression(w_init, Xbar, y, lam, lr = 0.05, nepoches = 500) 
print (w) 


print (loss(w, Xbar, y, lam)) 


Machine Learning co bán https: // machinelearningcoban. com 


171 CHUONG 14. LOGISTIC REGRESSION 


1.11 

1.25 
8 i 1.04 
o 
== 0.94 
E E 
3 9 0.84 
2 2 
& g 0.77 
5 9 
E 0.6 4 
$ 
£ 0.5 

0.5 T T T y T ue r r r 1 1 1 

0 1 2 3 4 5 6 0 100 200 300 400 500 
studying hours number of iterations 
(a) (b) 


Hình 14.3: Nghiệm của logistic regression cho bài toán du đoán kết quả thi dua trên thời gian 
học. (a) Đường màu lục thể hiện xác suất thi đỗ dựa trên thời gian học. Điểm tam giác vàng thể 
hiện ngưỡng ra quyết định đỗ/trượt. Điểm này có thể thay đổi tuỳ vào bài toán. (b) Giá trị của 
hàm mát mát qua các vóng láp. Hàm mát mát giám rát nhanh và hói tu rát sóm. 


Két quá: 


Solution of Logistic Regression: [ 1.54337021 -4.06486702] 
Final loss: 0.402446724975 


Từ đây ta có thể rút ra xác suất thi đỗ dựa trên công thức: 
probability of pass sigmoid(1.54 * hours of studying - 4.06) 


Biéu thúc này cüng chí ra ráng xác suát thi dó táng khi thói gian ón táp táng, do sigmoid 
là mót hàm dóng bién. Nghiém cúa mó hinh logistic regression và giá tri hàm mát mát qua 
mói epoch dugc mó tá trén Hinh 14.3. 


14.3.2 Ví du với dữ liệu hai chiều 


Chúng ta xét thêm một ví dụ nhỏ trong không gian hai chiều. Giả sử có hai lớp xanh và đỏ 
với dữ liệu được phân bố như Hình 14.4a. Với dữ liệu đầu vào nằm trong không gian hai 
chiều, hàm sigmoid có dang như thác nước như Hình 14.4b. 


Kết quả tìm được khi áp dụng mô hình logistic regression được minh họa như Hình 14.5 với 
màu nền thể hiện xác suất điểm đó thuộc class đỏ. Màu xanh đậm thể hiện giá trị 0, màu 
đỏ đậm thể hiện giá trị rất gần với 1. 

Khi phái lựa chọn một ranh giới thay vì xác suất, ta quan sát thấy các đường thang nằm 
trong khu vực lục và vàng là một lựa chọn hợp lý. Ta sẽ chứng minh ở phần sau rằng tập 


hợp các điểm cho cùng xác suất đầu ra tạo thành một siêu phẳng. 


Source code cho chương này có thể được tìm thấy tại https://goo.gl/9e7sPF. 
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(a) Dữ liệu cho bài toán phân lớp trong không gian hai chiều. (b) Dé thi hàm sigmoid trong không gian hai chiều. 
Hình 14.4: Ví dụ về dữ liệu trong không gian hai chiều và hàm sigmoid trong không gian đó. 


Hình 14.5: Ví dụ về Logistic Re- 
gression với dữ liệu hai chiều. Vùng 
màu đỏ càng đậm thể hiện xác suất 
thuộc lớp dữ liệu đỏ càng cao, vùng 
màu xanh càng đậm thể hiện xác 
suát thuộc lớp dữ liệu đỏ càng tháp 
- tức xác suất thuộc lóp dữ liệu 
xanh càng cao. Vùng biên giữa hai 
lóp thể hiện các điểm thuộc vào mỗi 
lớp với xác suât tháp hơn (độ tin 
cậy thấp hơn). 


Cách sử dụng logistic regression trong thư viện scikit-learn có thể được tìm thấy tai 
https://goo.gl/ BJLJ Nz. 


14.4 Tính chát cüa logistic regression 


1. Logistic Regression được sử dung nhiều trong các bài toán Classification. 


Mặc dù trong tên có tit regression, logistic regression được sử dung nhiều trong các bài 
toán classification. Sau khi tìm được mô hinh, việc xác dinh class y cho một điểm dữ liệu 
x dugc xác dinh báng viéc so sánh hai biéu thúc xác suát 


P(y = 1|x;w); P(y-O0l|xi w) (14.18) 


Nếu biểu thức thứ nhất lớn hon, ta kết luận điểm dữ liệu thuộc class 1, và ngược lại. Vì 
tổng hai biểu thức này luôn bằng một nên một cách gọn hơn, ta chỉ cần xác định xem 
P(y = 1|x; w) lón hơn 0.5 hay không. 


Machine Learning cơ bản https: // machinelearningcoban. com 


173 CHUONG 14. LOGISTIC REGRESSION 


2. Đường ranh giới tao bởi logistic regression lá một siêu phẳng 


Thật vậy, giả sử những điểm có xác suất đầu ra lớn hơn 0.5 được coi là thuộc vào lớp có 
nhãn là 1. Tập hợp các điểm này là nghiệm của bất phương trình 


1 
— r >05ee"*%<1lewx>0 (14.19) 


P(y = 1x: > 05 
(y = 1x w) = 


Nói cách khác, tập hợp các điểm thuộc lớp 1 tao thành nửa không gian (halfspace) 
w"x > 0, tap hợp các điểm thuộc lớp 0 tạo thành nửa không gian còn lại. Ranh giới giữa 
hai lớp chính là siêu phẳng w?x = 0. 
Chính vì điều này, logistic regression được coi như một bộ phân lớp tuyến tính. 

3. Logistic regression không yêu cầu giả thiết linearly separable. 
Một điểm cộng của logistic regression so với PLA là nó không cần có giả thiết dữ liệu hai 
lớp là linearly separable. Tuy nhiên, ranh giới tìm được vẫn có dạng tuyến tính. Vì vậy, 


mô hình này chỉ phù hợp với loại dit liệu mà hai lớp gần với linearly separable, tức chỉ 
có một vài điểm dữ liệu phá vỡ tính linearly separable của hai lớp. 


4. Ngưỡng ra quyết định có thể thay đổi. 


Hàm dự đoán đầu ra của các điểm dữ liệu mới có thể được viết như sau. 


def predict(w, X, threshold = 0.5): 
"mmm 
predict output of each row of X 
X: a numpy array of shape (N, d) 
threshold: a threshold between 0 and 1 
return a 1d numpy array, each element is 0 or 1 
"mnm 
res = np.zeros(X.shape[0]) 
res[np.where(prob(w, X) > threshold)[0]] = 1 
return res 


Trong các ví du đã nêu, ngưỡng ra quyết định đều được lấy tại 0.5. Trong nhiều trường 
hợp, ngưỡng này có thể được thay đổi. Ví dụ, việc xác định các giao dịch là lừa đảo của 
một công ty tín dụng là rất quan trọng. Việc phân lớp nhầm một giao dịch lừa đảo thành 
một giao dịch thông thường gây ra hậu quả nghiêm trọng hơn chiều ngược lại. Trong bài 
toán đó, ngưỡng phân loại có thể giảm xuống còn 0.3. Nghĩa là các giao dịch được dự 
đoán là lừa đảo với xác suất lớn hơn 0.3 sẽ được xếp vào lớp lừa đảo và nên được tiếp 
tục đánh giá bằng các bước khác. 


5. Khi biểu diễn theo neural networks, linear regression, PLA, và logistic regression có thể 
được biểu diễn như trên Hình 14.6. Sự khác nhau chỉ nằm ở lựa chọn hàm kích hoạt. 
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Linear Regression PLA Logistic Regression 


Hình 14.6: Biểu diễn linear regression, PLA, và logistic regression dưới dạng neural network. 


14.5 Bài toán phân biệt hai chữ só viết tay 


Chúng ta cùng làm một ví dụ thực tế hơn với bài toán phân biệt hai chữ số 0 và 1 trong 
bộ cơ sở dữ liệu MNIST. Trong muc này, chúng ta sẽ sử dung class LogisticRegression trong 
thư viện scikit-learn. Trước tiên, ta khai báo các thư viện và tải về bộ cơ sở dữ liệu MNIST. 


import numpy as np 

from sklearn.datasets import fetch mldata 

from sklearn.model selection import train test split 

from sklearn.linear model import LogisticRegression 

from sklearn.metrics import accuracy score 

mnist = fetch mldata('MNIST original”, data home-'../../data/') 
N, d = mnist.data.shape 


Có tổng cộng 70000 điểm dữ liệu trong tập dữ lieu MNIST, mỗi điểm là một mảng 784 phần 
tử tương ứng với 784 pixel. Mỗi chữ só từ 0 đến 9 chiếm khoảng 10%. Chúng ta sẽ lay ra tất 
cả các điểm ứng với chữ số 0 và 1, sau đó lấy ra ngẫu nhiên 2000 điểm làm test set, phần 
còn lại đóng vai trò training set. 


X_all mnist.data 
y_all = mnist.target 


XO = X all[np.where(y all == 0)[0]] + all digit 0 
X1 = X all[np.where(y all == 1)[0]] # all digit 1 
yO = np.zeros(X0.shape[0]) # class 0 label 
yl = np.ones (X1.shape[0] ) # class 1 label 


X = np.concatenate((X0, X1), axis = 0) # all digits 
np.concatenate((yO, y1)) # all labels 


KE 
ll 


# split train and test 
X train, X test, y train, y test = train test split(X, y, test_size=2000) 
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Hình 14.7: Các chữ só bị phân lớp lỗi 
trong bài toán phân lớp nhị phân với hai 
chữ số 0 và 1. 


Tiếp theo, ta xây dựng mô hình logistic regression trên test set và dự đoán nhãn của các 
điểm trong test set. Kết quả này được so sánh với nhãn thật của mỗi điểm dữ liệu để tính 
độ chính xác của bộ phân lớp trên tập kiểm thử. 


model = LogisticRegression(C = 1e5) # C is inverse o£ lam 
model. £fit(X train, y train) 


y. pred = model.predict (X test) 
print ("Accuracy $.2f $$" % (100*accuracy score(y test, y pred.tolist()))) 


Tuyệt vời, gần nhu 100% được phân loại chính xác. Điều này là dé hiểu vi hai chữ số 0 và 1 
khác nhau rất nhiều. 


Tiếp theo, ta cùng đi tìm những ảnh bị phân loại sai và hiển thị chúng. 


mis = np.where((y. pred y test) !=0) [0] 
Xmis = X test[mis, :] 


from display network import * 
filename - 'mnist mis.pdf' 
with PdfPages(filename) as pdf: 
plt.axis('off') 
A = display network(Xmis.T, 1, Xmis.shape[0]) 


f2 = plt.imshow(A, interpolation-'nearest' ) 
plt.gray() 

pdf.savefig(bbox inches-'tight') 

plt.show() 


Chi có hai chữ só bi phân lớp lỗi được cho trên Hình 14.7. Trong đó, chữ số 0 bị phân lớp 
lỗi là dễ hiểu vì nó trông rất giống chữ số 1. 


Bạn doc có thể xem thêm ví dụ về bài toán xác định giới tính dựa trên ảnh khuôn mặt tại 
https://goo.gl/9V8wdD. 


14.6 B6 phan lóp nhi phan cho bai toán phan lóp da lóp 


Logistic regression được ấp dung cho các bài toán phân lớp nhị phân. Các bài toán phân lớp 
thực tế có thể có nhiều hơn hai lớp dữ liệu rất nhiều, được gọi là bài toán phân lớp đa lớp 
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(multi-class classification). Với một vài kỹ thuật nhỏ, ta có thể áp dụng logistic regression 
cho các bài toán phân lớp đa lớp. 


Có ít nhất bôn cách để áp dụng logistic regression hay các bộ phân lớp nhị phân vào các bài 
toán phân lớp da lớp. 


14.6.1 One-vs-one 


Xây dựng rất nhiều các bộ phân lớp nhị phân cho từng cặp hai lớp đữ liệu. Bộ thứ nhất 
phân biệt lớp thứ nhất và thứ hai, bộ thứ hai phân biệt lớp thứ nhất và lớp thứ ba, v.v.. Dữ 
liệu mới được đưa vào tất cả các bộ phân lớp nhị phân nêu trên. Kết quả cuối cùng có thể 
được xác định bằng cách xem lớp nào mà điểm dữ liệu đó được phân vào nhiều nhất. Hoặc 
với logistic regression thi ta có thể tính tong các rác suất mà điểm dit liệu đó rơi vào mỗi 
lớp. Như vậy, nếu có Œ lớp thì số bộ phân lớp cần dùng là CO Dây là một con só lớn, 
cách làm này không lợi về tính toán. Hơn nữa, nếu một chữ số thực ra là chữ số 1, nhưng 
lại được đưa vào bộ phân lớp giữa các chữ số 5 và 6, thì cả hai khả năng đều không hợp lý. 


14.6.2 Phân tầng 


Cách làm như one-vs-one sẽ mất rất nhiều thời gian huấn luyện vì có quá nhiều bộ phân lớp 
cần được xây dựng. Một cách giúp giảm số bộ phân lớp nhị phân là phân tầng (hierarchical). 
Ý tưởng của phương pháp này có thể được thấy qua ví dụ sau. 


Giả sử ta có bài toán phân lớp 4 chữ số 4, 5, 6, 7 trong MNIST. Vì chữ só 4 và 7 khá giống 
nhau, chữ só 5 và 6 khá giống nhau nên trước tiên ta xây dựng bộ phân lớp |4, 7] vs [5, 6]. 
Sau đó xây dựng thêm hai bộ 4 vs 7 và 5 vs 6. Tổng cộng, ta cần ba bộ phân lớp. Chú ý 
rang có nhiều cách chia khác nhau, vi dụ [4, 5, 6] vs 7, |4, 5] vs 6, rồi 4 vs 5. Ưu điểm của 
kỹ thuật này là nó sử dung ít bộ phân lớp tuyến tính hon one-vs-one. Han chế lớn nhất của 
nó là việc nếu chỉ một bộ phân lớp cho kết quả sai thì kết quả cuối cùng chắc chắn sẽ sai. 
Ví dụ, nếu một ảnh chứa chữ số 5 bị phân lớp lỗi bởi bộ phân lớp đầu tiên, nó sẽ bị phân 
sang nhánh [4, 7]. Cuối cùng, nó sẽ bi phân vào lớp 4 hoặc 7, cả hai đều không chính xác. 


14.6.3 Binary coding 


Có một cách giảm số binary classifiers hơn nữa là binary coding, tức má hóa output của mỗi 
lớp bằng một số nhị phân. Ví dụ, nếu có bốn lớp dữ liệu thì các lớp được mã hoá là 00, 01, 
10, và 11. Với cách làm này, số bộ phân lớp nhị phân cần xây dựng chỉ là m = [log,(C)] 
trong đó C là số lớp, [a] là số nguyên nhỏ nhất không nhỏ hon a. Bộ thứ nhất đi tìm bit 
đầu tiên của output (đã được mã hóa nhị phân), bộ thứ hai sẽ đi tìm bit thứ hai, v.v.. Cách 
làm này sử dụng một số lượng nhỏ nhất các bộ phân lớp tuyến tính. Tuy nhiên, nó có một 
hạn chế rất lớn là chỉ cần một bit bị phân loại sai sẽ dẫn đến dữ liệu bị phân loại sai. Hơn 
nữa, nếu số lớp không phải là lũy thừa của hai, mã nhị phân nhận được có thể là một giá 
trị không tương ứng với lớp nào. 
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Hình 14.8: Một só ví du vé phân phối của các lớp dữ liệu trong bài toán phân lớp da lớp. 


14.6.4 one-vs-rest hay one-hot coding 


Kỹ thuật được sử dụng nhiều nhất là one-vs-rest (một số tài liệu gọi là ove-vs-all, one- 
against-rest, hoặc one-against-all). Cu thể, nếu có C lớp thi ta sẽ xây dựng C bộ phân 
lớp nhị phân, mỗi bộ tương ứng với một lớp. Bộ thứ nhất giúp phân biệt lớp thứ nhất với 
các lớp còn lại, tức xem một điểm có thuộc lớp thứ nhất hay không, hoặc xác suất để một 
điểm rơi vào lớp đó là bao nhiêu. Tương tự như thế, bộ thứ hai sẽ phân biệt lớp thứ hai với 
các lớp còn lại, v.v.. Kết quả cuối cùng có thể được xác định bằng cách xác định lớp mà một 
điểm rơi vào với xác suất cao nhất. 


Logistic regression trong thư viện sklearn có thể được dùng trực tiếp để áp dụng vào các 
bài toán phân lớp đa lớp với kỹ thuật one-vs-rest. Với bài toán MNIST, để dùng logistic 
regression kết hợp với one-vs-rest (mặc định trong scikit-learn), ta có thể làm như sau. 


# all class 

X train, X test, y train, y test = train test split(X all, y all, test size=10000) 
model = LogisticRegression(C = 1e5) 4$ C is inverse of lam 

model.fit(X train, y train) 

y pred = model.predict (X test) 

print ("Accuracy $.2f $$" 3 (100*accuracy score(y test, y pred.tolist()))) 


Két quà thu dugc khoáng 91.7%. Dày ván là mót két quà quá tháp so vói con só 99.7% mà 
deep learning dà đạt được. Ngay cả K-nearest neighbors cũng đã dat khoáng 96 %. 


14.7 Tháo luán 
14.7.1 Két hop các phuong pháp trén 


Trong nhiều trường hợp, ta cần phải kết hợp hai hoặc ba trong só bốn kỹ thuật dá đề cập. 
Xét ba ví dụ trong Hình 14.8. 


e Hình 14.8a: cả 4 phương pháp trên đây đều có thể áp dụng được. 


Machine Learning cơ bản https: // machinelearningcoban. com 


CHUONG 14. LOGISTIC REGRESSION 178 


e Hinh 14.8b: one-vs-rest không phù hợp vì lớp màu lục và hợp của lớp lam và lớp do là 
không (gần) linearly separable. Lúc này, one-vs-one hoặc hierarchical phù hợp hơn. 


e Hình 14.8c: Tương tự như trên, ba lớp lam, lục, đỏ tháng hàng nên sẽ không dùng được 
one-vs-rest. Trong khi đó, one-vs-one vẫn hiệu quả vì từng cặp lớp dữ liệu là linearly 
separable. Tương tự hierarchical cũng làm việc nếu ta phân chia các nhóm một cách hợp 
lý. Hoặc chúng ta có thể kết hợp nhiều phương pháp. Ví dụ: dùng one-vs-rest để tìm đổ 
với không đó. Nêu một điểm dữ liệu là không đỏ, với ba lớp còn lại, ta lại quay lại trường 
hợp Hình 14.8a và có thể dùng các phương pháp khác. Nhưng khó khăn vẫn nằm ở việc 
phân nhóm như thế nào, liệu rằng những lớp nào có thể cho vào cùng một nhóm? 


Với bài toán phân lớp đa lớp, nhìn chung các kỹ thuật sử dụng các bộ phân lớp nhị phân 
đã trở nên ít hiệu quả hơn so với các phương pháp mới. Mời bạn đọc thêm Chương 15 và 
Chương 29 để tìm hiểu về các bộ phân lớp đa lớp phổ biến nhất hiện nay. 


14.7.2 Biểu diễn các kỹ thuật đã nêu dưới dạng neural network 


Lấy ví dụ với bài toán có bốn lớp dữ liệu 1, 2, 3, 4; ta có thể biểu diễn các mô hình được 
đề cập trong Mục 14.6 dưới dạng neural network như trên Hình 14.9. Các node màu đỏ thể 
hiện đầu ra là một trong hai giá trị. 


Các network này đều có nhiều node ở output layer, và một vector trọng số w bây giờ đã trở 
thành ma trận trọng số W mà mỗi cột của nó tương ứng với vector trọng số của một node 
output. Việc tối ưu đồng thời các bộ phân lớp nhị phân trong mỗi network cũng được tổng 
quát lên nhờ các phép tính với ma trận. Lúc này, công thức cập nhật của logistic regression 


ww — n(zi — Yi) Xi (14.20) 

có thể được tổng quát thành 
W<W - qxi(zi — yi). (14.21) 
Với W, yi, zi lần lượt là ma trận trong só, vector (cột) output that với toàn bộ các bộ phân 
lớp nhị phân tương ứng với điểm dữ liệu x;, và vector output tìm được của networks tại thời 


điểm dang xét nếu đầu vào mỗi network là x;. Chú ý rằng vector y; là một vector nhị phân, 
vector z; gồm các phan tử nằm trong khoảng (0, 1). 


Machine Learning cơ bản https: // machinelearningcoban. com 


179 


CHUONG 14. LOGISTIC REGRESSION 


Xo S 


. LZ 


one-vs-one 


class 1 — '00' 
class 2 = '01' 
class 3 = '10” 
class 4 = '11' 


NT © bit o vs bit 1 


Binary coding 


Hinh 14.9: Mô 
hinh neural net- 
works cho các ky 
thuật sử dụng các 
bộ phân lớp nhị 
phân cho bài toán 
phân lớp đa lớp. 


one-vs-rest 
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Softmax regression 


Các bài toán phân lớp thực tế thường có rất nhiều lớp dí liệu. Nhu đã thao luận trong 
Chương 14, các bộ phân lớp nhị phân tuy có thể kết hợp được với nhau để giải quyết các bài 
toán này, chúng vẫn có những hạn chế nhất định. Trong chương này, một phương pháp mở 
rộng của logistic regression có tên là softmax regression sẽ được giới thiệu nhằm khác phuc 
những hạn chế đã đề cập. Một lần nữa, mặc dù trong tên có chứa từ “regression”, softmax 
regression được sử dụng cho các bài toán phân lớp. Nó cũng chính là một trong những thành 
phần phổ biến nhất trong các bộ phân lớp hiện nay. 


15.1 Giới thiệu 


Với bài toán phân lớp nhị phân sử dụng logistic regression, đầu ra của neural network là 
một số thực trong khoảng (0,1), đóng vai trò như là xác suất để đầu vào thuộc một trong 
hai lớp. Y tưởng này cũng có thể mở rộng cho bài toán phân lớp đa lớp, ở đó có C node ở 
output layer và giá trị mỗi node đóng vai trò như xác suất để đầu vào rơi vào lớp tương ứng. 
Như vậy, các đầu ra này liên kết với nhau qua việc chúng đều là các số dương và có tổng 
bằng một. Mô hình softmax regression thảo luận trong chương này đảm bảo tính chất đó. 


Nhắc lại kỹ thuật one-vs-rest được trình bày trong chương trước được biểu diễn dưới dang 
neuron network như trong Hình 15.1. Output layer màu đỏ có thể phân tách thành hai 
sublayer và mỗi thành phần của sublayer thứ hai a; chỉ phụ thuộc vào thành phần tương 
ứng ở sublayer thứ nhất z; thông qua ham sigmoid a; = c(z;). Các giá trị đầu ra a; đều 
là các số dương nhưng vì không có ràng buộc giữa chúng, tổng của chúng có thể là một số 
dương bất kỳ. 


Chú ý rằng các mô hình linear regression, PLA, và logistic regression chỉ có một node ở 
output layer. Trong các trường hợp đó, tham số mô hình chỉ là một vector w. Trong trường 
hợp output layer có nhiều hơn một node, tham số mô hình sẽ là tập hợp tham số w; ứng 
với từng node. Lúc này, ta có một ma tran trọng só (weight matrix) W = [wi, ws, ..., wc], 
mỗi cột ứng với một node ở output layer. 
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"Q-s-6 
zj 


woj: biases, don't forget! 


1 vs rest d: data dimension 

N C: number of classes 

4 7 C—O 2 vs rest x c RU 
WcR(+1)xC 

5;=W x 

z=W"xeR“ 


Jf > 0-0 C vs rest à; = sigmoid(z;) € R 


0<a¡<l 


Hinh 15.1: Phán lóp da lóp vói logistic regression vá one-vs-rest. 


15.2 Softmax function 
15.2.1 Cóng thúc cúa Softmax function 


Chúng ta cần một mô hình xác suất sao cho với mỗi input x, a; thể hiện xác suất dé input 
đó rơi vào lớp thứ i. Vậy điều kiện cần là các a; phải duong và tổng của chúng bằng một. 
Ngoài ra, ta sẽ thêm một điều kiện cũng rất tự nhiên nữa, đó là giá trị z; = w?x càng lớn 
thì xác suất dit liệu rơi vào lớp thứ i càng cao. Điều kiện cuối này chỉ ra rằng ta cần một 
quan hệ đồng biến ở đây. 


Chú ý rằng z; có thể nhận giá trị cả âm và dương vi nó là một tó hợp tuyến tính của các 
thành phần của vector đặc trưng x. Một hàm số khả vi đơn giản có thể chắc chắn bién z; 
thành một giá trị dương, và hơn nữa, đồng bién, là hàm exp(z;) = e”. Điều kiện khả vi để 
thuận lợi cho việc sử dung đạo hàm cho việc tối ưu. Điều kiện cuối cùng, tổng các a; bằng 
một có thể được đảm bảo nếu 


= expe) | W=l,2,...,Ơ (15.1) 
2 ja exp) 


Mối quan hé này, với mỗi a; phụ thuộc vào tất cà các z;, thoả mãn tất cà các điều kiện dá 
xét: dương, tổng bằng một, giữ được thé tự của z;. Hàm số này được gọi là softmax function. 
Lúc này, ta có thể coi rằng 

ply, = ilxk; W) = ai (15.2) 


Trong đó, p(y = i|x; W) được hiểu là xác suất để một điểm dữ liệu x rơi vào lớp thứ i néu 
biết tham số mô hình là ma trận trọng số W. Hình 15.2 thể hiện mô hình softmax regression 
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Ti Wij —(2) z = softmax(W? x) 


woj: biases, don't forget! 


d: data dimension 
C: number of classes 


xe RH 
We RIGDxC short form 


Zi = wIx 


z= W' xe RC 


a = softmax(z) € RC 
[e] 


a; > 0, 5 aedi 


i—l 


Hinh 15.2: Mô hinh softmax regression dưới dang neural network. 


dưới dang neural network. Sự khác nhau giữa mô hinh này và mó hinh one-vs-rest nằm ở 
chó nó có các liên kết giữa moi node của hai sublayer màu đỏ. 


15.2.2 Softmax function trong Python 
Dưới đây là một đoạn code thuc hiện hàm softmax. Dầu vào là một ma trận với mỗi hàng 


là một vector z, đầu ra cũng là một ma trận mà mỗi hàng có giá trị là a = softmax(z). Các 
giá trị của z còn được gọi lá scores. 


import numpy as np 
def softmax(Z): 
"mnm 
Compute softmax values for each sets of scores in V. 
each column of V is a set of scores. 
Z: a numpy array of shape (N, C) 
return a numpy array of shape (N, C) 
"nm 
e Z = np.exp (2) 
A= eZ / e Z.sum(axis = 1, keepdims = True) 
return A 


15.2.3 Mót vai ví du 


Hình 15.3 mó tả một vài ví dụ vé mối quan hệ giữa đầu vào và đầu ra của hàm softmax. 
Hàng trên màu xanh nhạt thể hiện các scores z; với giả sử rằng số lớp dữ liệu là ba. Hàng 
dưới màu đỏ nhat thể hiện các giá trị đầu ra a; của hàm softmax. 
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Hình 15.3: Một sô ví du vé đầu vào và đầu ra của ham softmax. 


Có một vài quan sát như sau: 


e Cot 1: Nếu các z; bằng nhau (bằng 2 hoặc một số bát kỳ), thì các a; cũng bằng nhau và 
bằng 1/3. 


e Cột 2: Nếu giá trị lớn nhất trong các z; là z¡ vẫn bằng 2, thì mặc dù xác suất tương ứng 
a; vẫn là lớn nhất, nó đã thay đổi lén hon 0.5. Sự chênh lệch ở đầu ra là đáng kể, nhung 
thứ tự tương ứng không thay đổi. 


e Cot 3: Khi các giá trị z; là âm thì các giá trị a; vẫn là duong và thứ tự vẫn được đảm bảo. 


e Cột 4: Nếu z1 = 22, thi a4 = a3. 


Ban đọc có thé thử với các giá trị khác trực tiếp trên trình duyệt tai https: // g00.gl/pKxQ Yc, 
phần Softmax. 


15.2.4 Phiên bản ổn định hơn của softmax function 


Khi một trong các z; quá lớn, việc tính toán exp(z;) có thể gây ra hiện tượng tràn só 
(overflow), ảnh hưởng lớn tới kết quả của hàm softmax. Có một cách khắc phục hiện tượng 
này bằng cách dựa trên quan sát 
exp(z;) 7 exp(—c) exp(z;) B exp(z; — c) (15.3) 
C = E SE i 
Di exp(z;)  exp(—c) 2.3 exp(z;) m exp(z; — c) 
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với c là một hằng só bất kỳ. Vậy một phương pháp đơn giản giúp khắc phục hiện tượng 
overflow là trừ tất cả các z; đi một giá trị đủ lớn. Trong thực nghiệm, giá trị đủ lớn này 
thường được chọn là c = max; z;. Vậy chúng ta có thé sửa đoạn code cho hàm softmax phía 
trên bằng cách trừ mỗi hàng của ma trận đầu vào z đi giá trị lớn nhất trong hàng đó. Ta có 
phiên bản ón định hơn là softmax_stable!. 


def softmax stable(2): 
"mnm 
Compute softmax values for each sets of scores in Z. 


each row of Z is a set of scores. 
"nm 


# Z = Z.reshape(Z.shape[0], -1) 
_Z = np.exp(Z np.max(Z, axis = 1, keepdims = True)) 
A =e 7Z / e Z.sum(axis = 1, keepdims = True) 


return A 


15.3 Hám mát mát vá phuong pháp tói uu 
15.3.1 Cross entropy 


Đầu ra của softmax network không còn là một giá trị biểu thị lớp cho dữ liệu mà đã trở 
thành một vector ở dạng one-hot với chỉ một phần tử bằng 1 tại vị trí tương ứng với lớp đó 
(tính từ 1), các phần tử còn lại bằng 0. 


Với mỗi đầu vào x, đầu ra tương ứng qua softmax network sẽ là vector a = softmax(W Tx); 
đầu ra này được goi là dau ra dự đoán. Trong khi đó, đầu ra thực sự của nó là một vector ở 
dạng one-hot. 


Hàm mát mát của softmax regression được xây dựng dựa trên bài toán tối thiểu sự khác 
nhau giữa dau ra dự đoán a và đầu ra thực su y (6 dạng one-hot). Khi cả hai là các vector 
thể hiện xác suất, khoảng cách giữa chúng thường được đo bằng một đại lượng được gọi là 
cross entropy. Một đặc điểm nổi bật của đại lượng này là nếu có định một vector xác suất, 
giá trị của nó dat giá tri nhỏ nhất khi hai vector xác suất bằng nhau, và rất lớn khi hai vector 
đó lệch nhau nhiều. 


Cross entropy giữa hai vector phân phối p và q rời rac được định nghĩa bởi 
e 
H(p.q) = — Sp log q; (15.4) 
i=1 


Hình 15.4 thể hiển rõ uu điểm của ham cross entropy so với hàm bình phương khoảng cách 
Euclid. Day là ví dụ trong trường hợp C = 2 và pı lần lượt nhận các giá tri 0.5,0.1 và 0.8. 
Chú ý rằng pə = 1 — pı. Có hai nhận xét quan trọng sau đây: 

1. Giá trị nhỏ nhất của cà hai hàm só đạt được khi q = p tại hoành độ các điểm màu lục. 


Xem thêm vé cách xử lý mảng numpy trong Python tai https: // fundaml.com 
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p=0.1 


p=0.8 


?F —(0.1log(g)+0.9log(1— q) | (0. 8log(q) + 0. 2log(1 — q)) 


—(0. 5log(g) +0. 5log(1 — q)) 


(a) (b) (c) 


Hình 15.4: So sánh giữa hàm cross entropy và hàm bình phương khoảng cách. Các điểm màu 
lục thể hiện các giá trị nhỏ nhát của mỗi hàm. 


2. Quan trọng hơn, hàm cross entropy nhận giá trị rất cao (tức mất mát rất cao) khi q ở 
xa p. Trong khi đó, sự chênh lệch giữa các mất mát ở gần hay xa nghiệm của hàm bình 
phương khoảng cách (q — p)? là ít đáng ké hơn. Về mặt tối ưu, hàm cross entropy sẽ cho 
nghiệm gần với p hơn vì những nghiệm ở xa bi tring phat rat nặng. 


Hai tính chất trên đây khiến cho cross entropy được sử dụng rộng rãi khi tính khoảng cách 
giữa hai phân phối xác suất. Tiếp theo, chúng ta sẽ chứng minh nhận dinh sau. 


Cho p € R© là một vector uới các thành phán dương và tổng bằng 1. Bài toán tối uu 
+ 


q = arg min H(p, q) 
q 
C 
thoá màn: yr =1;q; > 0 
i=1 


có nghiêm q = p. 
Bài toán này có thể giải quyết bằng phương pháp nhân tú Lagrange (xem Phụ lục A). 


Lagrangian của bài toán này là 
C c 
(d, 42, --.,40, A) = — 3 pidog(a) + A( gi- 1) 
i=1 i=1 


Ta cần giải hê phương trình 
—P.+À=\0, ¿=1,...,C 


V £(m.....qơ,À) =U©® 4 % 
đ1;-..;jŒ;^À (qı qc ) l qta +: +qc=1 


Từ phương trình thứ nhất ta có p; = Aq;. Vì vậy, 1 = p» Pi = AN E de =A=>A=L 
Điều này tương đương với qi = pj, Vi. 
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1. Hàm cross entropy không có tính đối xing H(p, q) 4 H(q,p). Diều này có thể dé 
dàng nhận ra ở viéc các thành phần của p trong công thúc (1) có thể nhận giá trị 
bằng 0, trong khi đó các thành phan của q phải là dương vi log(0) không xác định. 
Chính vi vay, khi sử dung cross entropy trong các bài toán phân lớp, p là dau ra 
thực sự vi nó là môt vector ở dang one-hot, q là đầu ra dự đoán. Trong các thành 


phan thể hiện xác suất của q, không có thành phần nào tuyét đối bằng 1 hoặc tuyệt 
đối bằng 0 (do hàm exp luôn trả vé một giá trị duong). 

. Khi p là một vector ở dạng one-hot, giả sử chỉ có p. = 1, khi đó biểu thức cross 
entropy trở thành — log(q.). Biểu thức nàu đạt giá trị nhỏ nhất nếu q. = 1, điều 
này là không khá thi vi nghiệm này không thuộc miễn xác định của bài toán. Tuy 
nhiên, giá tri cross entropy tiệm cận tới 0 khi q. tiến đến 1. Diều này záy ra khi 
ze rat rất lớn so uới các z; còn lại. 


15.3.2 Xây dung hàm mát mát 


Trong trường hợp có C lóp dữ liệu, mát mát giữa đầu ra dự đoán và đầu ra thuc sự của một 
điểm dữ liệu x; với label (one-hot) y; được tính bởi 


Ji(W) ê J(W; Xi, yi) De --àw log( đại) (15.5) 


với yj; và aj; lần lượt là phần tử thứ j của vector xác suất y; và a;. Nhắc lại rằng đầu ra a; 
phụ thuộc vào đầu vào x; và ma trận trọng số W. Tới đây, nếu để ý rằng chỉ có đúng một 
7 sao cho yj; = 1, Vi, biểu thức (15.5) chỉ còn lại một số hạng tuong ứng với giá trị j đó. Dé 
tránh việc sử dụng quá nhiều ký hiệu, chúng ta giả sử rằng y; là nhãn của điểm dữ liệu x; 
(các nhãn là các số tự nhiên từ 1 tới C), khi đó 7 chính bằng y;. Sau khi có ký hiệu này, ta 
có thể viết lại 

X(W) = —log(su,) (15.6) 


với ay, i là phần tử thứ y; của vector aj. 


Kết hợp tất cả các cặp dữ liệu xi, y;,i = 1,2,..., M, hàm mát mát cho softmax regression 
được xác định bởi 


N 
J(W;X, Y) rs glay, i) (15.7) 


Ó đây, ma trận trọng só W là biến cần tối ưu. Mặc dù hàm mát mát này trông phức tap, 
đạo hàm của nó rất gọn. Ta cũng có thể thêm weight decay để tránh overfitting bằng cách 
cộng thêm một đại lượng tỉ lệ với || W ||}. 


À 
J(W;X, Y) =-= -- (Lisan (ay, i) +ậIwli) (15.8) 
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Trong các mục tiếp theo, chúng ta sẽ làm việc với hàm mất mát (15.7). Việc mó rộng cho 
hàm mát mát với regularization (15.8) không phức tạp vì đạo hàm của số hạng regularized 
2I[W |2. đơn giản là AW. Hàm mát mát (15.7) có thể được thực hiện trên Python như sau’. 


def softmax loss(X, y, W): 
"mnm 
W: 2d numpy array of shape (d, C), 
each column correspoding to one output node 
X: 2d numpy array of shape (N, d), each row is one data point 
y: ld numpy array -- label of each row of X 
"nw 
A = softmax stable (X.dot (W) ) 
id0 = range (X.shape[0]) # indexes in axis 0, indexes in axis 1 are in y 
return -np.mean(np.log(A[id0, y])) 


. Khi biểu diễn dưới dạng toán học, mỗi điểm dü liệu là một cột của ma trận X; 
nhung khi làm viéc uới numpy, moi điểm dữ liệu được đọc theo axis = 9 của mang 
hai chiều x. Việc nay thống nhất uới các thu vién scikit-learn hay tensorflou ở chỗ 
X[i] được dùng để chỉ điểm. dữ liệu thú i, tính từ 9. Ttc là, nếu có N điểm dí liệu 


trong không gian d chiều thi X € RÁN, nhung X.shape == (N, d). 

. W € R?*C, w.shape == (d, c). 

. WTX sẽ được biểu diễn bởi X.dot(W), và có shape == (N, ©). 

. Khi làm viéc vói phép nhán ma trán hay máng nhiéu chiéu trong numpy, ta luón 
nhó chú y tới kích thước của các ma trận sao cho các phép nhân thực hiện được. 


15.3.3 Tối uu hàm mát mát 


Hàm mất mát sẽ được tối ưu bằng gradient descent, cụ thể là mini-batch gradient descent. 
Mỗi lần cập nhật của mini-batch gradient descent được thực hiện trên một batch có số phần 
tử 1 < k « N. Dé tính được đạo ham của hàm mát mát theo tập con này, trước hết ta xem 
xét đạo hàm của hàm mất mát tại một điểm dữ liệu. 


Với chỉ một cáp dữ liệu (x;, y;), ta lại dùng (15.5) 


ECON 


Y exp(w1x; 


C 
J(W) = — X` yjilog(aji) 
j=1 


c g 
= > C — yji log (> exp wis) 
j=1 k=1 
c Ü 
"`... nh... 
j=1 k=1 


? Xem thêm: Truy cập vào nhiều phần tử của mảng hai chiều trong numpy - FundaML https: /⁄⁄goo.gl/SzLDaa. 
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Tiếp theo ta sử dụng công thức 

VwJi((W) = |Vv,J,(W), Vv,J;(W),..., Vw¿„J;(W)| (15.10) 
Trong đó, gradient theo từng cột của w; có thể tính được dua theo (15.9) và quy tắc chuỗi 
tính gradient 
exp(w? x) 
WIX;) 


+ 
vài exp( 
(aji — uj) 


= —yjiXi + d/¡Xị = Xi 
= ejiX; (VỚI ej; = aji — yi) (15.11) 


Vw; (W) = —7¡X¡ 


1 


Giá tri ej; = aji — yj; chính là sự sai khác giữa đầu ra dự đoán va đầu ra thực sự tại thành 
phần thứ j. Kết hợp (15.10) và (15.11) với e; = a; — y, ta có 


Vw;( W ) = X¿|€1¿; Cir...» eci] = x,el (15.12) 
1 1 
W) = X T fe T 


vói E = A — Y. Cóng thüc tính dao hàm don gián thé này giúp cho cá batch gradient descent, 
và mini-batch gradient descent déu có thé dé dàng dugc áp dung. Trong truóng hgp mini- 
batch gradient, giá sử kích thước batch là k, ký hieu X, € R?*^, Y, € (0,1) **, A, € RC** 
là dữ liệu ứng với một batch, công thức cập nhật cho một batch sé là 


Wew- TXE; (15.14) 


b 


với N, là kích thước của mỗi batch. Hàm só tính dao hàm theo W trong Python có thể được 
thực hiện như sau: 


def softmax grad(X, y, W): 
"mnm 
W: 2d numpy array of shape (d, C), 
each column correspoding to one output node 
X: 2d numpy array of shape (N, d), each row is one data point 
y: ld numpy array -- label of each row of X 
"nm 
A = softmax stable(X.dot(W)) 4 shape of (N, C) 
id0 = range (X.shape[0]) 
A[id0, y] -= 1 4$ A - Y, shape of (N, C) 
return X.T.dot (A) /X.shape [0] 


Hàm này đã được kiểm chứng lại bằng hàm check. grad. 


Từ đó, ta có thể viết hàm số huấn luyện softmax regression như sau: 
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def softmax fit(X, y, W, lr = 0.01, nepoches = 100, tol = le-5, batch size = 10): 
W old = W.copy () 
ep = 0 
loss_hist = [loss(X, y, W)] # store history of loss 
N = X.shape[0] 
nbatches = int (np.ceil (float (N) /batch_size) ) 
whil p < nepoches: 
ep += 1 
mix_ids = np.random.permutation(N) # mix data 
for i in range (nbatches) : 
# get the i-th batch 


batch ids = mix_ids[batch_size*i:min(batch_size* (1+1), N)] 
X batch, y batch = X[batch ids], y[batch_ids] 
W -= lr*softmax grad(X batch, y batch, W) # update gradient descent 


loss hist.append(softmax loss(X, y, W)) 
if np.linalg.norm(W - W old)/W.size « tol: 
break 
W old = W.copy () 
return W, loss_hist 


Cuối cùng là hàm dự đoán nhãn của các điểm dữ liệu mới. Nhãn của một điểm dữ liệu mới 
được xác định bằng chỉ số của lớp dữ liệu có xác suất rơi vào cao nhất, và cũng chính là chỉ 
số của score cao nhất. 


def pred(W, X): 
"mm 
predict output of each columns of X . Class of each x i is determined by 


location of max probability. Note that classes are indexed from 0. 
"mm 


return np.argmax(X.dot(W), axis -1) 


15.4 Ví du trén Python 


Dé minh hoa ranh giói cüa các lóp dit lieu khi sit dung softmax regression, cháng ta cüng 
làm một ví du nhỏ trong không gian hai chiều với 5 lớp dữ liệu: 


C, N = 5, 500 number of classes and number of points per class 

means = [[2, 2], [8, 3], [3, 6], [14, 2], [12, 81] 

cov = [[1, 0], IO, 111 

X0 = np.random.multivariate normal(means[0], cov, N) 

X1 = np.random.multivariate normal(means[1], cov, N) 

X2 = np.random.multivariate normal(means[2], cov, N) 

X3 = np.random.multivariate normal(means[3], cov, N) 

X4 = np.random.multivariate normal(means[4], cov, N) 

X = np.concatenate((XO, X1, X2, X3, X4), axis = 0) 4 each row is a datapoint 
Xbar = np.concatenate((X, np.ones((X.shape[0], 1))), axis = 1) # bias trick 


y = np.asarray([0]*N + [1]*N + [2]*N+ [3]*N + [4]*N) 


W init = np.random.randn(Xbar.shape[1], C) 
W, loss hist = softmax fit(Xbar, y, W init, batch size = 10, nepoches = 100, lr = 
0.05) 
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loss 
o 


0 20 40 60 80 100 
number of epoches 


(a) (b) 


Hình 15.5: Ví du vé sử dung softmax regression cho năm lớp dữ liệu. (a) Nghiém qua các 
epoches. (b) Két quà phán lóp cuói cüng. 


Giá tri của hàm mát mát qua các vòng lặp được cho trên Hinh 15.5a. Ta thấy rằng hàm mát 
mát giảm rất nhanh sau đó hội tu. Các điểm dữ liệu huấn luyện của mỗi lớp là các điểm có 
màu khác nhau trong Hình 15.5b. Các phần có màu nền khác nhau là các lãnh thd của mỗi 
lớp dữ liệu tìm được bằng softmax regression. Ta có thể thấy rằng các đường ranh giới có 
dạng đường tháng. Kết quả phân chia lãnh thổ cũng khá tốt, chỉ có một số ít điểm trong 
tập huấn luyện bị phân lớp sai. Để ý thấy rằng dùng softmax regression tốt hơn rất nhiều 
so với phương pháp kết hợp các bộ phân lớp nhị phân. 


MNIST với softmax regression trong scikit-learn 


Trong scikit-learn, softmax regression được tích hợp trong class sklearn.linear_model. 
LogisticRegression. Như sẽ thấy trong phần thảo luận, logistic regression chính là softmax 
regression cho bài toán binary classification. Với bài toán multi-class classification, thư viện 
này mặc định sử dụng kỹ thuật one-vs-rest. Để sử dụng softmax regression, ta thay đổi thuộc 
tính multi class = 'multinomial' và solver = 'lbfgs'. Ő day, '1bfgs' là một phương pháp tối 
ưu rất mạnh cũng dựa trên đạo hàm. Trong khuôn khổ của cuốn sách, chúng ta sẽ không 
thảo luận về phương pháp này. 


Quay lại với bài toán phân lớp chữ số viết tay trong cơ sở dữ liệu MNIST. Đoạn code dưới 
đây thực hiện việc lấy ra 10000 điểm dữ liệu trong số 70000 điểm làm tập kiểm thử, còn lại 
là tập huấn luyện. Bộ phân lớp được sử dụng là softmax regression. 
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import numpy as np 

from sklearn.datasets import fetch_mldata 

from sklearn.linear_model import LogisticRegression 

from sklearn.model_selection import train_test_split 

from sklearn.metrics import accuracy_score 

mnist = fetch mldata('MNIST original”, data home-'../../data/') 


X = mnist.data 
y = mnist.target 
X train, X test, y train, y test - train test split(X, y, test size-10000) 


model = LogisticRegression(C = 1e5, 
solver = 'lbfgs', multi class = 'multinomial') 4 C is inverse of lam 
model.fit(X train, y train) 


y. pred = model.predict (X test) 


o oom 9o 


print ("Accuracy $.2f $$" % (100*accuracy score(y test, y pred.tolist()))) 


Két quà: 


o 


Accuracy: 92.19 $ 


So vói két quá hon 91.7% cúa one-vs-rest logistic regression, két quá cúa softmax regression 
đã được cải thiện được một chút. Kết quả thấp như thế này là có thể dự đoán được vì thực 
ra softmax regression vẫn chỉ tạo ra các đường ranh giới là các đường tuyến tính. Kết quả 
tốt nhất của bài toán phân loại chữ số trong MNIST hiện nay vào khoảng hơn 99.7%, đạt 
được bằng một convolutional neural network với rất nhiều hidden layer và layer cuối cùng 
chính là một softmax regression. 


15.5 Thảo luận 


15.5.1 Logistic regression là một trường hợp đặt biệt của softmax regression 


Khi C = 2, softmax regression và logistic regression là giống nhau. Thật vậy, với C = 2, đầu 
ra của hàm softmax cho một đầu vào x là 
exp(w1x) 1 


: E ; 0ạ=1~ 15.15 
ay exp(w! x) + exp(wgx) 1+ exp((w2 — wi)? x) đa ay ( ) 


Từ đây ta thay rang, a, có dang là một ham sigmoid với vector hệ số w = —(Ws — wi). 
Khi C = 2, ban doc cũng có thé thấy rằng hàm mất mat của logistic regression va softmax 
regression là như nhau. Hơn nữa, mặc dù có hai outputs, softmax regression có thể biểu diễn 
bởi một output vì tổng của hai outputs luôn luôn bằng 1. 


Softmax regression còn có các tên gọi khác là multinomial logistic regression, hay maximum 
entropy classifier. Giống như logistic regression, softmax regression được sử dụng trong các 
bài toán classification. Các tên gọi này được giữ lại vì vấn đề lịch sử. 
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15.5.2 Ranh giói tao bói softmax regression lá mót mát tuyén tính 


Thật vậy, dựa vào hàm softmax thì một điểm dữ liệu x được du đoán là rơi vào class 7 nếu 
aj > ay, Vk # j. Ban đọc có thể chứng minh được rằng 


aj > 0y © Zj > Zk © w?x > wlx e (wj — wi) x > 0 (15.16) 
Như vậy, một điểm thuộc lớp thứ j nếu và chỉ néu (w;—w¿)"x > 0, Vk # j. Nhu vậy, lành 
thổ của mỗi lớp dữ liệu là giao của các nửa không gian. Nói cách khác, đường ranh giới giữa 
các lớp là các mặt tuyến tính. 
15.5.3 Softmax Regression là một trong hai classifiers phó biến nhất 
Softmax regression cüng vói multi-class support vector machine (Chuong 29) là hai bó phàn 
lớp phó biến nhất được dùng hiện nay. Softmax regression đặc biệt được sử dung nhiều trong 
các deep neural network với rất nhiều hidden layer. Những layer phía trước có thể được coi 
như một bộ tạo vector đặc trưng, layer cuối cùng thường là một softmax regression. 


15.5.4 Source code 


Source code cho chương này có thể được tìm thấy tai https:// goo.gl/ XU8ZXm. 
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Chuong 16 


Multilayer neural network va 
backpropagation 


16.1 Giới thiệu 
16.1.1 Perceptron cho các hàm logic cơ bản 


Chúng ta cùng xét khả năng biểu diễn của perceptron (PLA) cho các bài toán biểu diễn các 
hàm logic nhị phân: NOT, AND, OR, và XOR!. Dé có thể sử dụng perceptron (với đầu ra 
là 1 hoặc -1), chúng ta sẽ thay các giá trị bằng 0 (false) của tại đầu ra của các hàm này bởi 
-1. Quan sát hàng trên của Hình 16.1, các điểm hình vuông màu xanh là các điểm có nhãn 
bằng 1, các điểm hình tròn màu đỏ là các điểm có nhãn bằng -1. Hàng dưới của Hình 16.1 
là các mô hình perceptron với các hệ số tương ứng. 


Nhận thấy rằng với các bài toán NOT, AND, và OR, dữ liệu hai lớp là linearly separable, 
vì vậy ta có thể tìm được các hệ số cho perceptron giúp biểu diễn chính xác mỗi ham 
số. Chang hạn với hàm NOT, khi zı = 0, ta có a = sgn(-2 x 0 + 1) = 1; khi zı = 1, 
a = sgn(—2 x 1+ 1) = —1. Trong cả hai trường hợp, đầu ra dự đoán đều giống với đầu ra 
thực sự. Bạn đọc có thể tự kiểm chứng các hệ số với hàm AND và OR. 


16.1.2 Biểu diễn hàm XOR với nhiều perceptron 


Hàm XOR, vì dữ liệu không linearly separable, không thể biểu diễn bằng một perceptron. 
Nếu thay perceptron bằng logistic regression tức thay hàm kích hoạt từ hàm sign sang hàm 
sigmoid, ta cũng không tìm được các hệ số thỏa mãn, vì về bản chất, logistic regression (hay 
cả softmax regression) cũng chỉ tạo ra các ranh giới có dạng tuyến tính. Như vậy là các mô 
hình neural network chúng ta đã biết không thể biểu diễn được hàm số logic đơn giản này. 


! đầu ra bằng 1 (true) nếu và chỉ nếu hai đầu vào logic khác nhau. 
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NOT problem AND problem 


OR problem 


XOR problem 


+|- 


cS 
e 


0= 


Input layer 


Hình 16.2: Ba perceptron biểu diễn hàm XOR. 


Output layer 


aO =f (wrx + p) 


a = f(wera + b) 


ƒ(.) = sgn(.) (element-wise) 


Nhân thấy rằng nếu cho phép sử dụng hai đường thẳng, bài toán biểu diễn hàm XOR có thể 
được giải quyết như Hinh 16.2. Các hệ số tương ứng với hai đường thang trong Hình 16.2a 
được minh họa trên Hình 16.2b bằng các mũi tên xuất phát từ các điểm màu lục và cam. 
Đầu ra at? bằng 1 với các điểm nằm về phía (+) của đường thang 3 — 2z¡ — 2x9 = 0, bằng 


Machine Learning cơ bản 


https: // machinelearningcoban.com 


195 CHUONG 16. MULTILAYER NEURAL NETWORK VÀ BACKPROPAGATION 


-1 với các điểm nằm vé phía (-). Tương tự, đầu ra az bằng 1 với các điểm nằm vé phía (+) 
của đường thẳng —1 + 2# + 2x7 = iv eae vay, hai đường thằng ứng với hai perceptron 
này tạo ra hai đầu ra tại các node at ) a, Vi hàm XOR chi có môt dáu ra nên ta càn làm 
thêm một bước nữa: coi a1, as nhu là đầu vào của một perceptron khác. Trong perceptron 
mới này, input là các node màu cam (đừng quên bias node luôn có giá trị bằng 1), đầu ra là 
node màu đỏ. Các hệ số được cho trên Hình 16.2b. Kiểm tra lại một chút, với các điểm hình 
vuông xanh (Hinh 16.2a), a? = a? = 1, khi đó a® = sgn(—1 + 1+ 1) = 1. Với các điểm 
hình tròn đỏ, vì al )l- 4 nên a) = sgn(—1 + al” + as”) = sgn(—1) = —1. Trong ca hai 
trường hợp, đầu ra dự đoán giong với đầu ra thực sự. Vay, nếu sử dung ba perceptron 
tương ứng với các đầu ra al YD a, a), ta sẽ biểu diễn được hàm XOR. Ba perceptron ké 
trên được xếp vào hai layers. Layer thứ nhất: đầu vào - lục, đầu ra - cam. Layer thứ hai: 
đầu vào - cam, đầu ra - đỏ. Ở đây, đầu ra của layer thứ nhất chính là đầu vào của layer thứ 
hai. Tổng hợp lại ta được một mô hình mà ngoài layer đầu vào (lục) và đầu ra (đỏ), ta còn 
có một layer nữa (cam). 


Một neural network với nhiều hon hai layer còn được gọi là multilayer neural network, 
multilayer perceptrons (MLPs), deep feedforward network hoác feedforward neural network. 
Từ feedforward được hiểu là dữ liệu đi tháng từ đầu vào tới đầu ra theo các mũi tên mà 
không quay lại ö điểm nào, tức là network có dang một acyclic graph (đồ thị không chứa 
chu trình kín). Tén gọi perceptron ö đây có thể gây nhầm lẫn một chút?, vì cum từ này dé 
chỉ neural network với nhiều layer và mỗi layer không nhất thiết, nếu không muốn nói là rất 
hiếm khi, là một hoặc nhiều perceptron. Hàm kích hoạt có thể là các hàm phi tuyến khác 
thay vì hàm sgn. 


Cụ thể hơn, một multilayer neural network là một neural network có nhiều layer, làm nhiệm 
vụ xấp xi mối quan hệ giữa các cặp quan hệ (x, y) trong tập huấn luyện bằng một hàm số 


có dạng 
y = g” (ge (... (gP (g®(x))))), (16.1) 


Trong dó, Jayer oe nhat dong MU trò nhu hàm a® £ g(x); layer thứ hai đóng vai trò như 
hàm a® 2 g(2(g(D(x)) = fA (a®), v.v.. 


Trong phạm vi cuốn sách, chúng ta quan tâm tới các layer đóng vai trò như các hàm có dạng 
g) (al) = ƒ0(w*at=Ð T b9) (16.2) 


với WO, b® là ma trận và vector với số chiều phù hợp, ƒ là một hàm số được gọi là ham 
kích hoạt (activation function). 


Một vài lưu ý: 

e Dé cho đơn giản, chúng ta sử dụng ký hiệu NS T dé thay cho (W 0)" (ma trận chuyển 
vi). Trong Hinh 16.2b, ký hiệu ma tràn W được sử dung, mặc dù đúng ra nó phải là 

? Geofrey Hinton, phù thuỷ Deep Learning, từng thừa nhận trong khoá học “Neural Networks for Machine Learning” 


(https: // goo.gl/ UfdT1t) rằng “Multilayer Neural Networks should never have been called Multilayer Perceptron. 
It is partly my fault, and I’m sorry.”. 
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wOG Hinh 16.3: MLP vói hai hidden 
layers (các biases dà bi àn). 


Input Hidden 1 Hidden 2 Output 


vector, dé biểu diễn tổng quát cho trường hợp output layer có thé có nhiều hon một node. 
Tương tự với bias b. 


e Khác với các chương trước vé neural network, khi làm việc với multilayer neural network, 
ta nên tách riêng phần bias và ma trận hệ số. Điều này đồng nghĩa với việc vector input 
x là vector KHÔNG mở rộng. 


Đầu ra của multilayer neural network loại này ứng với một đầu vào x có thể được tính theo 


o (16.3) 
z0 = WOTalD 4 pO, 1=1,2...,L (16.4) 
a = f(z), |—1,2,...,L (16.5) 

$ — a0 (16.6) 


Dây chính là đầu ra dự đoán. Bước này được gọi là feedforward vì cách tính toán được thuc 
hiện từ đầu đến cuối của network. Hàm mát mát thoả mãn dat giá trị nhỏ khi đầu ra này 
gần với đầu ra thực sự. Tuy vào bài toán, là classification hoặc regression, chúng ta cần thiết 
kế các hàm mát mát phù hợp. 


16.2 Các ký hiệu và khái niệm 

16.2.1 Layer 

Ngoài input layer và output layer, một multilayer neural network có thể có nhiều hidden 
layer 6 giữa. Các hidden layer theo thứ tự từ input layer đến output layer được đánh só thứ 


thự là hidden layer 1, hidden layer 2, v.v.. Hình 16.3 là một ví dụ về một multilayer neural 
network với hai hidden layer. 


Số lượng layer trong một multilayer neural network, được ký hiệu là L, được tính bằng só 
hidden layer cộng với một. Khi đếm số layer của một multilayer neural network, ta không 
tính input layer. Trong Hinh 16.3, L = 3. 
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(1 — 1)* layer [* layer Hinh 16.4: Các ky hiéu sú 

dung trong multilayer neural 
e network. 
O AD a0 
E E pO 
=D | ah ) O 
1) d -D x gO 
4D ¿O WER 
(-1) (Ey OS! 


0,0 a” = wi alm + pP 


e. 
x 
= 


u M 
" : : () 2 Ww(Ta(-1) + bữ) 
l-1 l-1 Z a 
DE DE e 
o 0 a® = fz) 
z-) aí-D ZD — Cao 
2 al 
16.2.2 Units 


Quan sát Hình 16.4, mỗi node hình tròn trong một layer được gọi là một unit. Unit ở input 
layer, các hidden layer, vá output layer được lần lượt gọi là input unit, hidden unit, và output 
unit. Đầu vào của hidden layer thứ | được ký hiệu bởi z, đầu ra của mỗi unit thường được 
ký hiệu là a (thể hiện activation, tức giá trị của mỗi unit sau khi ta ấp dung activation 
function lên đầu vào z(?). Dau ra của unit thứ i trong layer thứ | được ký hiệu là a”, Giá 
sử thêm rằng só unit trong layer thứ l (không tính bias) là d. Vector biểu diễn output của 
layer thứ | được ký hiệu là a0 € RÁ”, 


16.2.3 Weights và Biases 


Có L ma trận trọng só cho một multilayer neural network có L layer. Các ma trận này được 
ký hiệu là WO e R4^ 7x40 | — 1,2,..., trong đó W thể hiện các kết nói từ layer thứ 
| — 1 tới layer thứ | (nếu ta coi input layer là layer thứ 0). Cu thé hơn, phan tử wt) thé hiện 
kết nối tit node thứ i của layer thứ (1 — 1) tới node từ j của layer thứ (1). Các bias của layer 
thứ (1) được ky hiệu là bY ER Các trọng số này được ký hiệu như trên Hình 16.4. Khi 
tối ưu một multilayer neural network cho một công việc nào đó, chúng ta cần đi tìm các 
weight và bias này. Tập hợp các weight và bias lần lượt được ký hiệu là W và b. 


16.3 Activation function-Hàm kích hoạt 
Mỗi output của một layer (trừ input layer) được tính dựa vào công thức 

a = f (WUTau=9 a b9) (16.7) 
Trong đó ƒ (D(.) là một hàm kích hoạt phi tuyến. Nếu hàm kích hoạt tai một layer là một 


hàm tuyến tính, layer này và layer tiếp theo có thể rút gọn thành một layer vì hợp của các 
hàm tuyến tính là một hàm tuyến tính. 
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Hinh 16.5: Ví du về dó thị của hàm (a)sigmoid và (b)tanh. 


Hàm kích hoạt thường là một hàm số áp dung lên tèng phán tử của ma trận hoặc vector 


đầu vào, nói cách khác, hàm kích hoạt thường là element-wise?. 


16.3.1 Hàm sgn không được sử dụng trong MLP 


Hám sgn chỉ được sử dụng trong perceptron. Trong thực tế, hàm sgn không được sử dụng 
vì và đạo hàm tại hầu hết các điểm bằng 0 (trừ tại điểm 0 không có đạo hàm). Việc đạo 
hàm bằng 0 này khiến cho các thuật toán dựa trên gradient không hoạt động. 


16.3.2 Sigmoid và tanh 


Hàm sigmoid có dạng sigmoid(z) = 1/(1 + exp(—z)) với đồ thị như trong Hình 16.5a. Nếu 
đầu vào lớn, hàm số sẽ cho đầu ra gần với 1. Với đầu vào nhỏ (rất âm), hàm số sẽ cho đầu ra 
gần với 0. Trước đây, hàm kích hoạt này được sử dụng nhiều vì có đạo hàm rất đẹp. Những 
năm gần đây, hàm số này ít khi được sử dụng. Một hàm tương tự thường được sử dụng và 
exp(z) — exp (—z) 
exp(z) + exp(—z) 
tính chất đầu ra chạy từ -1 đến 1, khiến cho nó có tính chất zero-centered, thay vì chỉ dương 
nhu hàm sigmoid. Gần đây, hàm sigmoid chỉ được sử dụng ở output layer khi yêu cầu của 
đầu ra là các giá trị nhị phân. Một nhược điểm dễ nhận thấy là khi đầu vào có trị tuyệt 
đối lớn (rất âm hoặc rất dương), đạo hàm của cả sigmoid và tanh sẽ rất gần với 0. Điều 
này đồng nghĩa với việc các hệ số tương ứng với unit đang xét sẽ gần như không được cập 
nhật khi sử dụng công thức cập nhật gradient desent. Thêm nữa, khi khởi tạo các hệ số cho 
multilayer neural network với hàm kích hoạt sigmoid, chúng ta phải tránh trường hợp đầu 
vào một hidden layer nào đó quá lớn, vì khi đó đầu ra của hidden layer đó sẽ rất gần với 0 
hoặc 1, dẫn đến đạo hàm bằng 0 và gradient desent hoạt động không hiệu quả. 


. Hàm sô này có 


mang lại hiệu quả tốt hơn là hàm tanh với tanh(z) = 


Machine Learning cơ bản https: // machinelearningcoban.com 


199 CHUONG 16. MULTILAYER NEURAL NETWORK VÀ BACKPROPAGATION 


0.75 
ReLU function 


c 
in 


a — max(z, 0) 
p lạ m 
Training error rate 
Ñ 
o 


bạ o 


(a) 


Hình 16.6: Hàm ReLU và tốc độ hội tụ khi so sánh với hàm tanh. 


16.3.3 ReLU 


ReLU (Rectified Linear Unit) được sử dụng rộng rãi gần đây vì tính đơn giản của nó. Đồ 
thị của hàn ReLU được minh họa trên Hinh 16.6a. Hàm ReLU có công thức toán hoc 
f(z) = max(0, z) - rất don giản, rất lợi về mặt tính toán. Dao hàm của nó bằng 0 tại các 
điểm âm, bằng 1 tai các điểm dương. ReLU được chứng minh giúp cho việc huấn luyện các 
multilayer neural network và deep network (rất nhiều hidden layer) nhanh hơn rất nhiều so 
với hàm tanh [KSH12]. Hình 16.6b so sánh sự hội tụ của hàm mát mát khi sử dung hai hàm 
kích hoặc ReLU và tanh. Sự tăng tốc này được cho là vì ReLU được tính toán gần như tức 
thời và gradient của nó cũng được tính cực nhanh. 


Mặc dù cũng có nhược điểm đạo hàm bằng 0 với các giá trị đầu vào âm, ReLU được chứng 
minh bằng thực nghiệm rằng có thể khác phục việc này bằng việc tăng só hidden unit!. 
ReLU trở thành hàm kích hoạt đầu tiên chúng ta nên thử khi thiết kế một multilayer neural 
network. Hầu hết các network đều có hàm kích hoạt là ReLU trong các hidden unit, trừ hàm 
kích hoạt ở output layer phụ thuộc vào đầu ra thực sự của mỗi bài toán (có thể nhận giá trị 
âm, hoặc nhị phân, v.v.). 


Ngoài ra, các biến thể của ReLU như leaky rectified linear unit (Leaky ReLU), parametric 
rectified linear unit (PReLU) và randomized leaky rectified linear units (RReLU) [X\WCL15] 
cũng được sử dụng và được báo cáo có kết quả tốt. Trong thực té, trước khi thiết kế, ta 
thường không biết chính xác hàm kích hoạt nào sẽ cho kết quả tốt nhất. Tuy nhiên, ta nên 
bắt đầu bằng ReLU, nếu kết quả chưa khả quan thì có thể thay thế bằng các biến thể của 
nó và so sánh kết quả. 


3 Hàm softmax khóng phái lá mót hám element-wise vi nó sú dung moi thánh phán cúa vector dáu váo. 
^ Neural Networks and Deep Learning — Activation function (https: // goo.gl/ QGjKmU ). 
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16.4 Backpropagation 


Phương pháp phổ biến nhất để tối ưu multilayer neural network chính là gradient descent 
(GD). Dé áp dung GD, chúng ta cần tính được dao hàm của hàm mát mát theo từng ma 
trận trọng só W và vector bias b0). 


Giả sử J(W, b, X, Y) là một hàm mát mát của bài toán, trong đó W, b là tập hợp tất cả 
các ma trận trọng số giữa các layer và vector bias của mỗi layer. X, Y là cặp dữ liệu huấn 
luyện với mỗi cột tương ứng với một điểm dữ liệu. Dé có thể áp dụng các phương pháp 
gradient descent, chúng ta cần tính được các Vy J; Vio J, Vl = 1,2,...,L. 


Nhắc lại quá trinh feedforward 


zii csse (16.8) 
20 =wTalD 4p, 1=1,2,...,L (16.9) 
a = Ƒ®(z), 1=1,2,...,L (16.10) 

j= a) (16.11) 


Một ví dụ của hàm mát mát là hàm mean square error (MSE): 
lu b 
JW, b, X, Y) = Y lys — 9nlló = 5) lys — ALB (16.12) 
n=1 n=1 


với N la số cặp dit liệu (x, y) trong tap huấn luyện. Theo các công thức nay, việc tính toán 
trực tiếp các giá trị đạo hàm là cực kỳ phức tạp vì hàm mất mát không phụ thuộc trực 
tiếp vào các ma trận hệ số và vector bias. Phương pháp phổ biến nhất được dùng có tên là 
backpropagation giúp tính đạo hàm ngược từ layer cuối cùng đến layer đầu tiên. Layer cuối 
cùng được tính toán trước vì nó gan güi hơn với dau ra dự đoán và hàm mát mát. Việc tính 
toán đạo hàm của các ma trận hệ số trong các layer trước được thực hiện dựa trên một quy 
tác chuỗi quen thuộc cho dao hàm của hàm hợp. 


Stochastic gradient descent có thể được sử dụng để tính gradient cho các ma trận trọng só 
và biases dựa trên một cặp điểm training x, y. Dé cho đơn giản, ta coi J là hàm mất mát 
nếu chỉ xét cặp điểm này, ở đây J là hàm mất mát bất kỳ, không chỉ hàm MSE như ở trên. 
Dao hàm của hàm mát mát theo chí một thành phần của ma trận trọng số của output layer 


= . | — a ¿Ey (16.13) 


(L) 
OJ 2 Ži = 
ha 7, thường là một dai lượng khong quá khó dé tính toán và — = ac 1) 
az! ) dw! ) 
y ¿DDT y j2 


vz =w a . Tương tự, dao hàm của hàm mất mát theo bias của layer cuối 
cùng là 
az 
EU ce (16.14) 
Ob On oh 7 
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(J — 1)?" layer 
I^ layer (I + 1)?" layer 


© (1) 
LN l AN b; 
WU e Ra  -? xao 
UD aU? wl? b ec pex 
O a — œ1 =0 + y 
C-D aED z(0 = WTạt=1) + bí 
dq—1) q(—1) 
D — (1) 
(1) (1) a = fu 
z(-1) au- 0 EO Q tứ) z (1*1) au) 


Hinh 16.7: Mó phóng cách tính backpropagation. Layer cuói có thé là output layer. 


Với dao hàm theo hệ số ở các lớp | tháp hơn, chúng ta hãy xem Hình 16.7. Ở đây, tai mỗi 
unit, đầu vào z và đầu ra a được viết riêng để chúng ta tiện theo dõi. 


Dựa vào Hình 16.7, bằng quy nạp ngược từ cuối, ta có thể tính được 


8J a 0 mg 
ow? aa ro ea (16.15) 


(16.16) 


) dqá+1) 


oJ Oza ONO! (+1), (12-1) ()“/„( 
»» PNEU ju )=| 3,4 tt 7907) (617) 
* Qj k=1 


1+1) — [o0+1D) ¿(0+1) (1+1) RIDI và 


e TẾ Tos Eol €] và wm dugc hiéu là hàng thit j cüa 
ma trận Wt (chú ý dấu hai chấm, khi không có dấu này, chúng ta mặc dinh dùng nó để 
ký hiệu cho vector côt). Dấu Y; tính tổng ở dòng thứ hai trong phép tính trên xuất hiện 
141) 


trong dó el 


vì a đóng góp vào việc tính tất cả các gu k = 1,2,..., d ^U, Biểu thức đạo hàm ngoài 
dáu ngoác lón là vi at =f 9. Tới đây, ta có thể thấy rằng việc activation function có 
đạo hàm đơn giản sẽ có ích rất nhiều trong việc tính toán. Với cách làm tương tự, bạn đọc 
có thể suy ra 
OT cse (16.18) 
ap j 
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Nhán tháy ráng trong các cóng thúc trén dáy, viéc tính các e? dóng mót vài tró quan trong. 
Hon nữa, dé tính được giá trị này, ta cần tính được các aa Nói cách khác, ta cần tính 
ngược các giá trị này từ cuối. Cái tên backpropagation cũng xuất phát từ việc này. 


Việc tính toán các đạo hàm khi sử dụng SGD có thể tóm tắt như sau 


Thuật toán 16.1: Backpropagation tới dàn lê 

1. Buóc feedforward: Với 1 giá trị đầu vào x, tính giá trị đầu ra của network, trong 
quá trinh tính toán, lưu lại các giá tri activation a tại mỗi layer. 

2. Với mỗi unit j ở output layer, tính 


20, UP od E 
058 Ou C 7^7 gy^ ^C 


ij 
ở. Vóil- L—1,L —2,..,1, tính: 

(wien) pot) 
4. Cáp nhát dao hàm cho tüng hé só 


2 


ðJ — aya. 97 — A 
a j^ D 
j 


dw? i 


Phién bàn vectorization cüa thuát toán trén có thé dugc thuc hién nhu sau. 


Thuật toán 16.2: Backpropagation tới WÙ và vector bias bl? 
. Buóc feedforward: Vói mót giá tri dáu vào x, tính giá tri dáu ra cúa network, trong 
quá trinh tính toán, lưu lại các activation a® tại mỗi layer. 
. Vói output layer, tính 


e” = VuuyJ ER; Vaya) J = a DET e RIX. v iJ = el) 


. Vóil L—1,L —2,...,1, tính: 


e = (We) © f(z) e pa (16.22) 


trong đó O là element-wise product hay Hadamard product túc láy từng thành phần 
của hai vector nhân vói nhau để được vector kết quả. 
. Cập nhật đạo hàm cho các ma trận trọng só vá vector bias: 


V wid EN a - De (DT c RUDY xa, Vd = e (16.23) 
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Khi làm việc với các phép tính dao hàm phức tap, ta luôn cần nhớ hai điều sau. 


1. Đạo hàm của một hàm có đầu ra là một số vô hướng theo một vector hoặc ma trận là 
một đại lượng có cùng chiều với vector hoặc ma trận đó. 


2. Để các phép nhân các ma trận, vector thực hiện được, ta cần đảm bảo chiều của chúng 
phù hợp. 


L-1)e(1)JT Ree? xd» 


Trong công thức Vwu)J = af , về trái là một ma trận thuộc ] , vay vé 
phải cũng phái là một đại lượng có chiều tương tu. Từ đó ban doc có thé thấy tai sao vé 
phải phải là aD eT mà không thé là a) eU? hay ea#—1), 


16.4.1 Backpropagation cho batch (mini-batch) gradient descent 


Néu ta muón thuc hién batch hoác mini-batch GD thi thé nào? Trong thuc té, mini-batch GD 
được sử dung nhiều nhất với các bài toán mà tập huấn luyện lớn. Nếu lượng dữ liệu là nhỏ, 
batch GD trực tiếp được sử dụng. Khi đó, cặp (input, output) sẽ ở dạng ma trận (X, Y). Giả 
sử rằng mỗi lần tính toán, ta lấy N dữ liệu để tính toán. Khi đó, X € RY?*N, y € RIX, 
Với d® = d là chiều của dữ liệu đầu vào (không tính bias). 


Khi đó các activation sau mỗi layer sẽ có dạng AY € RUN. Tương tu, EU € JR22xX, Và 
ta cũng có thể suy ra công thức cập nhật như sau. 


Thuật toán 16.3: Backpropagation tới W( và bias b (mini-batch) 

. Bước feedforward: Với toàn bộ dit liệu (batch) hoặc một nhóm dü liệu (mini-batch) 
đầu vào X, tính giá trị đầu ra của network, trong quá trinh tính toán, luu lại các 
activation AO tại mỗi layer. Mỗi cột của AO tương ứng vói một cột của X, túc 
một điểm dü liệu đầu vào. 

. Với output layer, tính 


N 
ED =VzwJ, VwuwJ= AŒ-ĐEŒ, ViaJ=Y'eD (1624) 
n=l 


. Vóil=L-1,L-2,...,1, tính: 
EO = (WDE) © ƒ(29) (16.25) 


trong đó O là element-wise product hay Hadamard product túc láy từng thành phần 
của hai ma trận nhân uới nhau để được ma trận kết quả. 
. Cập nhật đạo hàm cho ma trận trọng số vá vector biases: 


N 
VwoJ = AUC DET. Vhod = e 
n=1 


Machine Learning co bán https: // machinelearningcoban. com 


CHƯƠNG 16. MULTILAYER NEURAL NETWORK VÀ BACKPROPAGATION 204 


..^ 
"SG 
a “hâM 
Bim 


(a) (b) 


Hinh 16.8: Dữ liệu giá trong không gian hai chiều và ví dụ vé các ranh giới tốt. 


wo we) Hinh 16.9: Multilayer neural net- 
work vdi input layer có hai unit (bias 
e dà được án), mót hidden layer vói 
hàm kích hoat ReLU (có thé có só 
O lugng hidden unit tuy ý), và output 

layer là một softmax regression với 
Q ba phán tü dai dién cho ba lóp dü 
liệu. 


Input layer Hidden layer Output 
Softmax Regression 


16.5 Ví du trén Python 


Trong mục này, chúng ta sé tao dit liệu giả trong không gian hai chiều sao cho đường ranh 
giới giữa các class không có dạng tuyến tính. Điều này khiến cho softmax regression không 
làm việc được. Tuy nhiên, bằng cách thêm một hidden layer, chúng ta sẽ thấy rằng neural 
network này làm việc rất hiệu quả. 


16.5.1 Tạo dữ liệu giả 


Các điểm dữ liệu giả của ba lớp được tạo và minh hoạ bởi các màu khác nhau trên Hình 16.8a. 
Ta thấy rõ ràng rằng đường ranh giới giữa các lớp dữ liệu không thể là các đường thẳng. 
Hình 16.8b là một ví dụ về các đường ranh giới được coi là tốt với hầu hết các điểm dữ 
liệu nằm đúng vào khu vực có màu nền tương ứng. Các đường biên này được tạo sử dụng 
multilayer neural network với một hidden layer sử dụng ReLU làm hàm kích hoạt và output 
layer là một softmax regression như trên Hình 16.9. Chúng ta cùng di sâu vào xây dựng bộ 
phân lớp dựa trên dữ liệu huấn luyện này. 
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Nhắc lại hàm ReLU f(z) = max(z, 0), với đạo hàm 


#ữ)= f nonem (16.27) 


1 O.W 


Vì lượng dữ liệu huấn luyện là nhỏ với 100 điểm cho mỗi lớp, ta có thé dùng batch GD dé 
cập nhật các ma trận hệ só và vector bias. Trước hết, ta cần tính đạo hàm của hàm mát 
mát theo các ma tràn và vector này bằng cách áp dung backpropagation. 


16.5.2 Tính toán Feedforward 


Giả sử các cặp dữ liệu huấn luyện là (xj, y;) với y; là một vector ở dang one-hot. Các điểm 

dữ liệu này xếp cạnh nhau tạo thành các ma trận đầu vào X và ma trận đầu ra Y. Bước 
feedforward của neural network này được thực hiện như sau. 

ZY = WUTX + BY (16.28) 

AY = Mi TP » (16.29) 

Z2 2wGTAO + B® (16.30) 

(16.31) 


Y = A® = softmax(Z(?) 16.31 


ane do B®, B® là các ma tran bias với tất cả các cột bằng nhau va lần lượt bằng b(? 
và b)». Hàm tật mát được tính dựa trên hàm cross-entropy 


N C 
J 2 J(W,b; X, Y) p ` yji log (91) (16.32) 


16.5.3 Tính toán Backpropagation 


Áp dụng Thuật toán 16.3, ta có 
1 


) = Vae = ao = Y) (16.33) 
N 
Vwo =AVES”, Vie =>» e (16.34) 
EU) = (WES) © f (ZO) (16.35) 
N 
Vwo = ADE(UT =XEV; Via) = V eP (16.36) 


Các công thức toán học phức tạp này sẽ được lập trình một cách đơn giản hơn trên numpy. 


5 Ta cần xếp các vector bias giống nhau dé tạo thành các ma trận bias vì trong toán học, không có định nghĩa tổng 
của một ma trận và một vector. Khi lập trình, việc này là khả thi. 
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16.5.4 Trién khai thuát toán trén numpy 


Truóc hét, ta viét lai hám softmax vá cross-entropy. Sau dó viét các hám khói tao vá du 
đoán nhãn của các điểm dữ liệu. 


def softmax stable (2) : 
"mnm 
Compute softmax values for each sets of scores in Z. 


each ROW of Z is a set of scores. 
"mnm 


|^ 4 = np.exp(Z np.max(Z, axis = 1, keepdims = True)) 
A =e Z / e Z.sum(axis = 1, keepdims = True) 
return A 


def crossentropy loss(Yhat, y): 
"nw 
Yhat: a numpy array of shape (Npoints, nClasses) -- predicted output 
y: a numpy array of shape (Npoints) -- ground truth. 
NOTE: We don't need to use the one-hot vector here since most of elements 
are zeros. When programming in numpy, in each row of Yhat, we need to access 


to the corresponding index only. 
"mnm 


id0 = range(Yhat.shape[0]) 
return -np.mean (np. 1og (Yhat[id0, y])) 


def mlp_init(d0, dl, d2): 
"nw 
Initialize W1, bi, W2, b2 
d0: dimension of input data 
dl: number of hidden unit 
d2: number of output unit - number of classes 
"mnm 
W1 = 0.01*np.random.randn(d0, dl) 
bl = np.zeros (dl) 
W2 = 0.01*np.random.randn (d1, d2) 
b2 = np.zeros (d2) 
return (W1, bl, W2, b2) 


def mlp predict(X, W1, bl, W2, b2): 
"nw 
Suppose that the network has been trained, predict class of new points. 
X: data matrix, each ROW is one data point. 
W1, bl, W2, b2: learned weight matrices and biases 


Z1 = X.dot(W1) + bl # shape (N, dl) 
Al = np.maximum(Z1, 0) # shape (N, dl) 
Z2 = Al.dot(W2) + b2 # shape (N, d2) 


return np.argmax(Z2, axis=1) 


Tiép theo lá ham chinh huán luyén softmax regression. 
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def mlp_fit(X, y, 


Wi; bl, W2, b2, eta): 


loss_hist = [] 


for i in xrange(20000): 


return 


# feedforward 


# number of epoches 


shape (N, dl) 


Z1 = X.dot (W1) + bl # shape (N, dl) 
Al = np.maximum(Z1, 0) # shape (N, dl) 
Z2 = Al.dot (W2) + b2 # shape (N, đ2) 
Yhat = softmax stable(Z2) # shape (N, d2) 
if i $1000 == # print loss after each 1000 iterations 
loss = crossentropy loss(Yhat, y) 
print ("iter $d, loss: $f" $(i, loss)) 
loss hist.append(loss) 
back propagation 
id0 = range (Yhat.shape[0]) 
Yhat[id0, y] -=1 
E2 = Yhat/N shape (N, d2) 
dW2 = np.dot (A1.T, E2) # shape (d1, đ2) 
db2 = np.sum(E2, axis = 0) # shape (d2,) 
El = np.dot(E2, W2.T) # shape (N, dl) 
El[Z1 <= 0] = 0 # gradient of ReLU, 
dW1 = np.dot (X.T, El) # shape (d0, dl) 
dbl = np.sum(El, axis = 0) # shape (dl,) 


# Gradient Descent update 


W1 += -eta*dW1 
bl += -eta*dbl 
W2 += -eta*dW2 
b2 += -eta*db2 
W1, bl, W2, b2, loss hist) 


Sau khi đã hoàn thành các hàm chính của multilayer neural network này, chúng ta dua dit 
liệu vào, xác định số hidden unit, và huấn luyện network. 


# suppose X, 


d0 = # data dimension 

dl = = 100 # number of hidden units 
d2 = = 3 # number of classes 

eta # learning rate 

(W1, bl, W2, b2) = mlp_init(d0, dl, d2) 
(W1, bl, W2, b2, loss hist) =mlp_fit(X, y, 
y pred = mlp_predict (X, W1, bl, W2, b2) 
acc 100*np.mean(y_pred == y) 

print ("training accuracy: $.2f %%7 % acc) 


y are training input and output, 


W1, bl, 


W2, 


respectively 


b2, eta) 


Két quá: 

iter loss: 1.098628 
iter 2000, loss: 0.030014 
iter 4000, loss: 0.021071 
iter 6000, loss: 0.018158 
iter 8000, loss: 0.016914 


training accuracy: 


99.33 $ 
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#hidden units = 2, accuracy =65.0% #hidden units = 5, accuracy =85.6666666667% 


(a) (b) 


#hidden units = 15, accuracy = 99.00 #hidden units = 30, accuracy = 99.33 


(c) (d) 


Hình 16.10: Kết quả với só lượng units trong hidden layer là khác nhau. 


Ta có thể thấy rằng hàm mát mát giảm dần và hội tụ. Kết quả phân lớp trên tập huấn luyện 
rất tốt, chỉ một vài điểm bị phân lớp lỗi, nhiều khả năng chúng nằm ở khu vực trung tâm. 
Với chỉ một hidden layer, network đã thực hiện công việc gần như hoàn hảo. 


Bằng cách thay đổi số lượng hidden unit (biến d1) và huấn luyện lại các network, minh hoa 
ranh giới giữa các lớp dữ liệu, chúng ta thu được các kết quả như trên Hình 16.10. Khi chỉ 
có hai hidden unit, các đường ranh giới vẫn gần như đường thẳng, kết quả là có tới 35% số 
điểm dữ liệu trong tập huấn luyện bị phân lớp lỗi. Khi số lượng hidden unit là 5, độ chính 
xác được cải thiện thêm khoảng 20%, tuy nhiên, các đường ranh giới vẫn chưa thực sự tốt. 
Thậm chí lớp đỏ và lam còn bị chia cắt một cách không tự nhiên. Nếu tiếp tục tăng số lượng 
hidden unit, ta thấy rằng các đường ranh giới tương đối hoàn hảo. 


Có thể chứng minh được rằng với một hàm số liên tục bất kỳ f(x) và một số e > 0, luôn 
luôn tồn tại một neural network với đầu ra có dạng g(x) với một hidden layer (với só hidden 
unit đủ lớn và hàm kích hoạt phi tuyến phù hợp) sao cho với mọi x,|f(x) — g(x)| < e. Nói 
cách khác, neural network có khả năng xáp xi bát kỳ hàm liên tục nào [Cyb89]. 


Trên thực tế, việc tìm ra số lượng hidden unit và hàm kích hoạt nói trên hầu như bất khả 
thi. Thay vào đó, thực nghiệm chứng minh rằng neural network với nhiều hidden layer kết 
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hợp với các hàm kích hoạt đơn giản, ví du ReLU, có khả năng xấp xi dữ liệu tốt hơn tốt 
hơn. Tuy nhiên, khi số lượng hidden layer lớn lên, số lượng hệ số cần tối ưu cũng lớn lên và 
mô hình sẽ trở nên phức tạp. Sự phức tạp này ảnh hưởng tới hai khía cạnh. Thứ nhất, tốc 
độ tính toán sẽ bị chậm đi rất nhiều. Thứ hai, nếu mô hình quá phức tạp, nó có thể biểu 
diễn rất tốt dữ liệu huấn luyện, nhưng có thể không biểu diễn tốt dữ liệu kiểm thử. Đây 
chính là hiện tượng overfitting. 


Vậy có các kỹ thuật nào giúp tránh overfitting cho multilayer neural network? Ngoài kỹ 
thuật toán cross-validation, chúng ta quan tâm hơn tới các phương phấp regular1zation. Các 
neural network với regularization được gọi là regularized neural network. Kỹ thuật phổ bién 
nhất được dùng để tránh overfitting là weight decay. 


16.6 Tránh overfitting cho neural network bằng weight decay 


Với weight decay, hàm mát mát sẽ được cộng thêm một đại lượng regularization có dang 
L 
AR(W) — AN WO! 
l=1 


tức tổng bình phương Frobenius norm của tất cả các ma trận hệ số. Chú ý rằng khi làm việc 
với multilayer neural network, bias hiếm khi được regularized. Đây cũng là lý do vì sao ta 
nên tách rời ma trận hệ số và vector bias khi làm việc với multilayer neural network. Việc 
tối thiểu hàm mất mát mới (với số hạng regularization) sẽ khiến cho các thành phần của 
các vector hệ số W không quá lớn, thậm chí nhiều thành phần sẽ gần với không. Điều này 
khiến cho việc có nhiều hidden unit vẫn an toàn vì nhiều trong số chúng gần với không. 


Tiếp theo, chúng ta sẽ làm một ví dụ nữa trong không gian hai chiều. Lần này, chúng ta sẽ 
sử dụng thư viện scikit-learn. 


from __future__ import print, function 
import numpy as np 
from sklearn.neural network import MLPClassifier 


means = [[-1, -1], [1, -11], I0, 11] 

cov = [[1, 0], [0, 1]] 

N = 20 

X0 = np.random.multivariate normal(means[0], cov, N) 
X1 = np.random.multivariate normal(means[1], cov, N) 
X2 = np.random.multivariate normal(means[2], cov, N) 
X = np.concatenate((X0, X1, X2), axis = 0) 

y = np.asarray([0]*N + [1]*N + [2]*N) 

alpha = le-1 # regularization parameter 


clf = MLPClassifier(solver-'lbfgs', alpha=alpha, hidden layer sizes-(100)) 
CUE, LEX, y) 

y pred = clf.predict (X) 

acc = 100*np.mean(y pred == 
print('training accuracy: %. 
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ttalpha = 0.01, accuracy =100.0% #alpha = 0.1, accuracy =100.0% 


(b) 


#alpha = 1.0, accuracy =80.0% #alpha = 10.0, accuracy =80.0% 


(c) (d) 


Hình 16.11: Kết quả với só lượng units trong hidden layer là khác nhau. 


Kết quả: 


° 


training accuracy: 100.00 $ 


Trong đoạn code trên, thuộc tính alpha chính là tham só regularization A. alpha càng lớn sẽ 
khiến các thành phần trong các ma trận hệ số càng nhỏ. Thuộc tính hidden_1ayer_sizes chính 
là số lượng hidden unit trong mỗi hidden layer. Nếu có nhiều hidden layer, chang hạn hai 
với số lượng hidden unit lần lượt là 10 và 100, ta cần khai báo hidden_layer_sizes=(10, 100). 
Hinh 16.11 minh hoạ ranh giới giữa các lớp tìm được với các giá tri alpha khác nhau, tức mức 
độ regularization khác nhau. Khi alpha nhỏ cỡ 0.01, các ranh giới tìm được trông không được 
tự nhiên và vùng xác định lớp màu lục không được liên tục. Mặc dù độ chính xác trên tập 
huấn luyện này là 100%, ta có thể quan sát thấy rằng overfitting đã xảy ra. Với alpha = 0.1, 
kết quả cho thấy lãnh tho của các lớp đã liên tuc, nhưng overfitting vẫn xảy ra. Khi alpha 
cao hơn, độ chính xác đã giảm xuống nhưng các đường ranh giới tự nhiên hơn. Bạn đọc có 
thể thay đổi các giá trị alpha trong source code (https: //goo.gl/czarSf) và quan sát các hiện 
tượng xảy ra. Đặc biệt, khi alpha = 100, độ chính xác còn 33.33%. Tai sao lại như vậy? Hy 
vọng bạn đọc có thể tự trả lời được. 
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16.7 Doc thêm 

1. Neural Networks: Setting up the Architecture, Andrej Karpathy (https: // goo.gl/ rfzCVK ). 
2. Neural Networks, Case study, Andrej Karpathy (https: // goo.gl/ 3ihCzL). 

3. Lecture Notes on Sparse Autoencoders, Andrew Ng (https: // goo. gl/ y Tgthe). 

4. Yes you should understand backprop (https: // goo.gl/ 8B3h1b). 

5. Backpropagation, Intuitions, Andrej Karpathy (https: // goo.gl/ f¡H2N V). 


6. How the backpropagation algorithm works, Michael Nielsen (https: // goo.gl/ mwz2kU ). 
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Phán V 


Recommendation systems—Hé thông khuyến nghi 


Các bạn có lẽ đã gặp những hiện tượng sau đây nhiều lần. Youtube tự động chạy các clip 
liên quan đến clip bạn đang xem, hoặc tự động gợi ý những clip mà có thể bạn sẽ thích. Khi 
ban mua một món hàng trên Amazon, hệ thống sẽ tự động gợi ý những sản phẩm frequently 
bought together, hoặc nó biết ban có thể thích món hàng nào dựa trên lịch sử mua hàng của 
bạn. Facebook hiển thị quảng cáo những sản phẩm có liên quan đến từ khoá bạn vừa tìm 
kiếm trên Google. Facebook gợi ý kết bạn. Netflix tự động gợi ý phim cho người dùng. Và 
còn rất nhiều ví dụ khác mà hệ thống có khả năng tự động gợi ý cho ngừời dùng những 
sản phẩm ho có thé thích. Bằng cách quảng cáo hướng đúng đối tượng đó, hiệu quả của việc 
marketing cũng sẽ tăng lên. 


Những thuật toán đằng sau những ứng dụng này là những thuật toán machine learning có 
tên gọi chung là hệ thống khuuến nghị (recommender system hoặc recommendation system). 


Trong phần này của cuốn sách, chúng ta sẽ cùng tìm hiểu ba thuật toán cơ bản nhất trong 
rất nhiều các thuật toán recommendation system. 


Chuong 17 


Content-based recommendation 
system 


17.1 Giới thiệu 


Recommendation system là một mảng khá rộng của machine learning, và có tuói đời ít hơn 
so với classification hay regression vì internet mới chỉ thực sự bùng nổ khoảng 10-15 năm gần 
đây. Có hai thực thể chính trong một recommendation system là user và item. User là người 
düng; item là sản phẩm, ví du như các bộ phim, bài hát, cuốn sách, clip, hoặc cũng có thé 
là các người dùng khác trong bài toán gợi ý kết bạn. Mục đích chính của các recommender 
system là dự đoán mic độ quan tâm của một người dùng tới một sản phẩm nào đó, qua đó 
có chiến lược recommendation phù hợp. 


17.1.1 Hiện tượng long tail trong thương mai 


Chúng ta cùng đi vào việc so sánh điểm khác nhau căn bản giữa các cửa hàng thực và các 
cửa hàng điện tử, xét trên khía cạnh lựa chọn sản phẩm để quảng bá. Ỏ đây, chúng ta tạm 
quên đi khía cạnh có cẩm giác thật chạm váo sán phẩm của các cửa hàng thực. Hãy cùng 
tập trung vào phần làm thế nào để quảng bá đúng sản phẩm tới đúng khách hàng. 


Có thé các bạn đã biết tới Nguyên lý Pareto (hay quy tắc 20/80) (https: // goo.gl/ NujWjH ): 
phan lớn kết quả được gay ra bởi phán nhỏ nguyên nhân. Phần lớn só từ sử dung hàng ngày 
chỉ là một phần nhỏ số từ trong bộ từ điển. Phần lớn của cải được sở hữu bởi phần nhỏ số 
người. Khi làm thương mại cũng vậy, những sản phẩm bán chạy nhất chỉ chiếm phần nhỏ 
tổng số sản phẩm. 


Các cửa hàng thực thường có hai khu vực, một là khu trưng bày, hai là kho. Nguyên tắc dễ 
thấy để đạt doanh thu cao là trưng ra các sản phẩm phổ biến nhất ở những nơi dễ nhìn thấy 
và cất những sản phẩm ít phổ biến trong kho. Cách làm này có một hạn chế rõ rệt: những 
sản phẩm được trưng ra mang tính phổ biến chứ chưa chắc đã phù hợp với một khách hàng 


215 CHUONG 17. CONTENT-BASED RECOMMENDATION SYSTEM 


cụ thể. Một cửa hàng có thể có món hàng một khách hàng tim kiếm nhưng có thể không 
bán được vì khách hàng không nhìn thấy sản phẩm đó trên giá; việc này dẫn đến việc khách 
hàng không tiếp cận được sản phẩm ngay cả khi chúng đã được trưng ra. Ngoài ra, vì không 
gian có hạn, cửa hàng không thể trưng ra tất cả các sản phẩm mà mỗi loại chỉ đưa ra một 
số lượng nhỏ. Ở đây, phần lớn doanh thu (80%) đến từ phần nhỏ số sản phẩm phổ biến nhất 
(20%). Nếu sắp xếp các sản phẩm của cửa hàng theo doanh số từ cao đến thấp, ta sẽ nhận 
thấy có thể phần nhỏ các sản phẩm tạo ra phần lớn doanh số; và một danh sách dài phía sau 
chỉ tạo ra một lượng đóng góp nhỏ. Hiện tượng này còn được gọi là long tail phenomenon, 
tức phần đuôi dài của những sản phẩm ít phó bién. 


Với các cửa hàng điện tử, nhược điểm trên hoàn toàn có thể tránh được. Vì gian trưng bay 
của các cửa hàng điện tử gần như là vô tán, mọi sản phẩm đều có thể được trưng ra. Hon 
nữa, việc sắp xếp online là linh hoạt, tiện lợi với chi phí chuyển đổi gần như bằng 0 khiến 
việc mang đúng sản phẩm tới khách hàng trở nên thuận tiện hơn. Doanh thu, vì thế có thể 
được tăng lên. 


17.1.2 Hai nhóm chính của recommendation system 


Các recommendation system thường được chia thành hai nhóm lón: 


1. Content-based system: khuyên nghi dựa trên đặc tính của sản phẩm. Vi dụ, một người 
dùng xem rất nhiều các bộ phim về cảnh sát hình sự, vậy thì gơi ý một bộ phim trong 
cơ sở dit liệu có chung đặc tính hinh sự tới người dùng này, ví du phim Người phán xw. 
Cách tiếp cận này yêu cầu việc sắp xếp các sản phẩm vào từng nhóm hoặc đi tìm các 
đặc trưng của từng sản phẩm. Tuy nhiên, có những sản phẩm không có nhóm cụ thể và 
việc xác dinh nhóm hoặc đặc trưng của từng sản phẩm đôi khi là bất khả thi. 


2. Collaborative filtering: hệ thống khuyến nghị các sản phẩm dựa trên sự tương quan 
(similarity) giữa các người dùng và/hoặc sản phẩm. Có thể hiểu rằng ở nhóm này một 
sản phẩm được khuyến nghi tới một người dùng dựa trên những người dùng có hành vi 
tương tu. Ví du, ba người dùng A, B, C đều thích các bài hát của Noo Phước Thịnh. 
Ngoài ra, hệ thống biết rằng người dùng B, C cũng thích các bài hát của Bích Phuong 
nhưng chưa có thông tin về việc liệu người dùng 4 có thích Bích Phương hay không. Dựa 
trên thông tin của những người dùng tương tự là B va C, hệ thống có thể dự đoán rằng 
A cũng thích Bích Phương và gợi ý các bài hát của ca sĩ này tới A. 


Trong chương này, chúng ta sẽ làm quen với nhóm thứ nhất, content-based system. Nhóm 
thứ hai, collaborative filtering, sẽ được thảo luận trong các chương còn lại của chương. 


17.2 Utility matrix 


Như đã đề cập, có hai thực thể chính trong các recommendation system là user và item. Mỗi 
user sẽ có múc độ quan tâm (degree of preference) tới từng item khác nhau. Mức độ quan 
tâm này, nếu đã biết trước, được gán cho một giá trị ứng với mỗi cặp user-item. Thông tin 
về mức độ quan tâm của một user tới một item có thé được thu thập thông qua một hệ 
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A B|C|D|E|F, Hình 17.1: Ví du vé utility matrix 

mapa vói hé thóng khuyén nghi bài hát. 

Mira na dem en Bo ? | Cácbaihát (item) duoc nguói düng 
Có úa 5|?7|0 ? |? (user) đánh giá theo mức độ từ 0 
Vùng lá me bay EE đến 5 sao. Các dâu '?' nén màu 
xám ứng với việc dữ liệu chưa tôn 

Con cò bé bé To pe p tại trong cơ sở dữ liệu. Recommen- 
Em yêu trường em |1|0|5|17|17?|1? dation system cần phải tự điền các 


giá trị này. 


thống đánh giá (review và rating); hoặc có thể dựa trên việc user đã click vào thông tin của 
item trên website; hoặc có thể dựa trên việc thời gian và số lần một user xem thông tin của 
một item. Các ví dụ trong phần này đều dựa trên hệ thống rating. 


17.2.1 Ví dụ về utility matrix 


Với một hệ thống rating, múc độ quan tâm của một user tới một item được đo bằng giá tri 
user đó đã đánh giá cho item đó, cháng hạn só sao trên tổng cộng năm sao. Tập hợp tất cả 
các rating, bao gồm cả những giá trị chưa biết cần được dự đoán, tạo nên một ma trận gọi 
là ma trận utility. Xét ví dụ như trong Hình 17.1. Trong ví dụ này, có sáu user A, B, C, D, 
E, F và năm bài hát. Các ô màu xanh thể hiện việc một user đã đánh giá một bài hát với 
rating từ 0 (không thích) đến 5 (rất thích). Các ô có dấu ’?’ màu xám tương ứng với các ô 
chua có dữ liệu. Công việc của một recommendation system là dự đoán giá tri tại các ô màu 
xám này, từ đó đưa ra gợi ý cho user. Vì vậy, bài toán recommendation system đôi khi được 
coi là bài toán hoàn thiện ma trận (matriz completion). 


Trong ví dụ đơn giản này, dễ nhận thấy có hai thể loại nhạc khác nhau: ba bài đầu là nhạc 
bolero và hai bài sau là nhạc thiếu nhi. Từ dữ liệu này, ta cũng có thể đoán được rằng A, B 
thích thể loại nhac Bolero; trong khi C, D, E, F thích thé loại nhạc Thiếu nhi. Từ đó, một 
hệ thống tốt nên gợi ý Có tia cho B; Vùng lá me bay cho A; Em yêu trường em cho D, E, 
F. Giả sử chi có hai thể loại nhạc này, khi có một bài hát mới, ta chỉ cần phân lớp nó vào 
thể loại nào, từ đó đưa ra gợi ý với từng user. 


Thông thường, có rất nhiều user và item trong hệ thống, và mỗi user thường chỉ rate một 
số lượng rất nhỏ các item, thậm chí có những user không rate item nào. Vì vậy, lượng ô màu 
xám của ma trận utility thường là rất lớn, và lượng các ô đã được điền là một số rất nhỏ. 


Rõ ràng rằng càng nhiều ô được điền thì độ chính xác của hệ thống sẽ càng được cải thiện. 
Vì vậy, các hệ thống luôn khuyến khích user bay tó sự quan tâm của họ tới các item thông 
qua việc đánh giá các item đó. Việc đánh giá các item, vì thế, không những giúp các user 
khác biết được chất lượng của item đó mà còn giúp hệ thống biết được sở thích của user, 
qua đó có chính sách quảng cáo hợp lý. 


Machine Learning cơ bản https: // machinelearningcoban.com 


217 CHUONG 17. CONTENT-BASED RECOMMENDATION SYSTEM 


17.2.2 Xáy dung ma trán utility 


Không có ma trận utility, hệ thống gần như không thể gợi ý được item tới user, ngoài cách 
luôn luôn gợi ý các item phổ biến nhất. Vì vậy, trong các recommender system, việc xây 
dựng ma trận utility là tối quan trọng. Tuy nhiên, việc xây dựng ma trận này thường có 
gặp nhiều khó khăn. Có hai hướng tiếp cận phổ biến để xác định giá tri rating cho mỗi cặp 
user-item trong utility matrix: 


1. Nhờ user đánh giá item. Amazon luôn nhờ user đánh giá các item của ho bằng cách gửi 
các email nhắc nhở nhiều lần. Tuy nhiên, cách tiếp cận này cũng có một vài hạn chế, vì 
thường thì user ít khi đánh giá sản phẩm. Và nếu có, đó có thể là những đánh giá thiên 
lệch bởi những người sẵn sàng đáng giá. 


2. Hướng tiếp cận thứ hai là dựa trên hành vi của user. Nếu một user mua một ¿tem trên 
Amazon, xem một clip trên Youtube (có thể là nhiều lần), hay đọc một bài báo, có thể 
khẳng định user đó có zu hướng thích item đó. Facebook cũng dựa trên việc ban like 
những nội dung nào để hiển thị trên newsfeed của bạn những nội dung liên quan. Ban 
càng đam mê Facebook, Facebook càng được hưởng lợi, thế nên nó luôn mang tới bạn 
những thông tin mà khả năng cao là bạn muốn đọc. Thường thì với cách này, ta chỉ xây 
dựng được một ma trận với các thành phần là 1 và 0, với 1 thể hiện user thích item, 0 
thể hiện chưa có thông tin. Trong trường hợp này, o không có nghĩa là thấp hon 1, nó 
chỉ có nghĩa là user chưa cung cấp thông tin. Chúng ta cũng có thể xây dựng ma trận 
với các giá trị cao hơn 1 thông qua thời gian hoặc số lượt má user xem một item nào đó. 
Ngoài ra, đôi khi nút dislike cũng mang lại những lợi ích nhất định cho hệ thống, lúc này 
có thể gán giá trị tương ứng bằng —1. 


17.3 Content-based recommendation 

17.3.1 Xây dung item profile 

Trong các hệ thống content-based, tức dựa trên nói dung của mỗi item, chúng ta cần xây 
dựng một bộ hộ sơ (profile) cho mỗi item. Profile này được biểu diễn dưới dạng toán học 
là một vector đặc trưng. Trong những trường hợp đơn giản, vector này được trực tiếp trích 


xuất từ item. Ví dụ, xem xét các thông tin của một bài hát mà có thể được sử dụng trong 
các recommendation system: 


1. Ca sĩ. Cùng là bài Thành phố buồn nhưng có người thích bản của Dan Nguyên, có người 
lại thích bản của Đàm Vĩnh Hưng. 


2. Nhạc sĩ sáng tác. Cùng là nhạc trẻ nhưng có người thích Phan Mạnh Quỳnh, người khác 
lại thích MTP. 


3. Năm sáng tác. Một só người thích nhạc xưa cũ hơn nhạc hiện dai. 


4. Thể loại. Quan ho và Bolero sẽ có thể thu hút những nhóm người khác nhau. 
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E | | item s feature vectors 
TS m Xi ~ [0.99, 0.02] 
? 


Mua núa dém 


Hình 17.2: Giả sử feature vector cho mỗi sản phẩm được cho trong cột cuói cùng. Với mỗi người 
dùng, chúng ta cán tìm một mô hinh 0; tương ứng sao cho mô hinh thu được là tôt nhât. 


Có rất nhiều đặc trưng khác của một bài hát có thể được sử dụng. Ngoại trừ Thé loại khó 
định nghĩa, các yếu tố khác đều có thể được xác định rõ ràng. 


Trong ví dụ ở Hình 17.1, chúng ta đơn giản hoá bài toán bằng việc xây dựng một vector đặc 
trưng hai chiều cho mỗi bài hát: chiều thứ nhất là mức độ Bolero, chiều thứ hai là mức độ 
Thiếu nhi của bài đó. Gọi các vector đặc trưng cho mỗi bài hát là x4, X2, xạ, x4, xg. Giả sử 
các vector đặc trưng (ở dạng cột) cho mỗi bài hát được cho trong Hình 17.2. Ở đây, chúng 
ta tạm coi các vector này đã được xác định bằng một cách nào đó. 


Tương tự như thế, hành vi của mỗi user cũng có thể được mô hình hoá dưới dạng tập các 
tham só 0. Dữ liệu huấn luyện để xây dựng mỗi mô hình 0, là các cặp (item profile, rating) 
tương ứng với các item mà user đó đã đánh giá. Việc điền các giá trị còn thiếu trong ma 
trận utility chính là việc dự đoán mức độ quan tâm khi áp dụng mô hinh 0, lên chúng. 
Đầu ra này có thể được viết dưới dạng một hàm /f(0,, x;). Việc lựa chon dang của f(0,, x;) 
tuỳ thuộc vào mỗi bài toán. Trong chương này, chúng ta sẽ quan tâm tới dạng đơn giản 
nhất-dạng tuyến tính. 


17.3.2 Xây dung hàm mát mát 


Giả sử rằng số lượng user là N, só lượng item là M. Ma tràn profile X = [xi, xa,..., xu] € 
RIM và ma trận utility là Y € RY*Y. Thanh phần ở hàng thứ m, cột thứ n của Y là mức 
độ quan tám (6 đây là só sao dá rate) của user thứ n lên item thứ m mà hệ thống dà thu 
thập được. Ma trận Y bi khuyết rất nhiều thành phần tương ứng với các giá tri mà hệ thống 
cần dự đoán. Thêm nữa, gọi R là ma trận rated or not thể hiện việc một user đã đánh giá 
một item hay chua. Cu thể, r„„ bằng 1 nếu item thứ m đã được đánh giá bởi user thứ n, 
bằng 0 trong trường hợp ngược lại. 
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Mô hình tuyến tính 


Giả sử rằng ta có thể tìm được một mô hình cho mỗi user, được minh hoạ bởi một vector 
cột hệ số w„ € R và bias b„ sao cho múc độ quan tâm của một user tới một item có thể 
tính được bằng một hàm tuyến tính: 


Xét một user thứ n bất kỳ, nếu ta coi tập huấn luyện là tập hợp các thành phần đã được 
điền của y, (cột thứ n của ma trận Y), ta có thể xây dung hàm mát mát tương tự nhu 
ridge regression (linear regression với l5 regularization) như sau: 


A 
£La(Wn, bn) = S— Za (Wi Xm + bn — mạ)” + as, wall (17.2) 


trong đó, thành phần thứ hai là regularization và A là một tham só duong; s„ là số lượng 
các item mà user thứ n đã đánh giá, là tổng các phần tử trên cột thứ n của ma tràn R, tức 
By em | aeo Tmn: Chú ý rằng regularization thường không được áp dụng lén bias bp. 


Vì biểu thức hàm mất mát (17.2) chỉ phụ thuộc vào các item đã được đánh giá, ta có thể 
rút gọn nó bằng cách đặt y, € R là vector con của yn, được xây dựng bằng cách trích 
các thành phần khác dấu ‘?’ ở cột thứ n của Y. Dòng thời, đặt X, € R^** là ma trận con 
của ma trận đặc trưng X, được tạo bằng cách trích các cột tương ứng với các item đã được 
đánh giá bởi user thứ n. (Xem ví dụ phía dưới để hiểu rõ hơn). Khi đó, biểu thức hàm mất 
mát của mô hinh cho user thứ n được viết gon thành: 


1 : À 
Lp (W», bn) = g, IX wa + ban = Sil Ea 55, lIWall (17.3) 


trong đó, e„ là vector cột với tất cả các thành phần là 1. Đây chính xác là hàm mất 
mát của ridge regression. Cặp nghiệm w„,b„ có thể được tìm thông qua các thuật toán 
gradient descent. Trong chương này, chúng ta sẽ trực tiếp sử dung class Ridge trong sklearn 
.linear model. Có một điểm đáng lưu ý ở đây là w„ chỉ được xác định nếu user thứ n đã 
đánh giá ít nhất một sản phẩm. 


Chúng ta cùng theo dói ví dụ nhỏ sau đây. 
17.3.3 Ví dụ về hàm mát mát cho user E 


Quay trở lại với ví dụ trong Hinh 17.2, ma trận đặc trưng cho các item (mỗi cột tương ứng 
với một item) là 


0.02 0.11 0.05 0.99 0.98 (17.4) 


Xét trường hợp của user E với n = 5, ys = [1,?,?,4,2] > rs =[1,0,0,1,0]7. Vi E mói chỉ 
đánh giá item thứ nhất và thứ tư nên sj = 2. Hon nữa, 


> [099001 . _ [1 i 
m Du | Liều H psc H in 
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Khi đó, hàm mất mát cho hệ só tương ứng với user E là: 


0.99 0.02 1 1 
e E 


Chúng ta sẽ áp dụng những phân tích trên đây để đi tìm nghiệm cho một bài toán gần với 
thực tế dưới đây. 


e 
+ 1lIwasll (17.6) 


2 


17.4 Bài toán với cơ sở dữ liệu MovieLens 100k 
17.4.1 Cơ sở dữ liệu MovieLens 100k 


Bộ cơ sở dữ liệu MovieLens 100k (https: //goo.gl/ BzHgtq) được công bó năm 1998 bởi 
GroupLens (https: // grouplens.org). Bộ co sở dí liệu này bao gồm 100,000 (100k) đánh giá 
từ 943 user cho 1682 bộ phim. Các bạn cũng có thể tìm thấy các bộ cơ sở dữ liệu tương tự 
với khoảng 1M, 10M, 20M đánh giá. 


Sau khi download và giải nén, chúng ta sẽ thu được rất nhiều các file nhỏ, chúng ta chỉ cần 
quan tâm các file sau: 


e u.data: Chita toàn bộ các đánh giá của 943 người dùng cho 1682 bộ phim. Mỗi người dùng 
đánh giá ít nhất 20 movie. Thông tin về thời điểm đánh giá cũng được cho nhưng chúng 
ta không sử dụng trong ví du này. 


® ua.base, ua.test, ub.base, ub.test: là hai cách chia toàn bộ dữ liệu ra thành hai tập con, 
một cho huấn luyện, một cho kiểm thử. Chúng ta sẽ thực hành trên ua.base vá ua.test. 
Bạn đọc có thể thử với cách chia dữ liệu còn lại. 


e u.user: Chúa thông tin về người dùng, bao gồm: id, tuổi, giới tính, nghề nghiệp, zipcode 
(vùng miền), vì những thông tin này cũng có thể ảnh hưởng tới sở thích của các người 
dùng. Tuy nhiên, trong ví dụ này, chúng ta sẽ không sử dụng các thông tin này, trừ thông 
tin về id để xác định các user khác nhau. 


e u.genre: Chúa tén cüa 19 thé loai phim. Các thé loai bao góm: unknown, Action, Adventure, 
Animation, Children's, Comedy, Crime, Documentary, Drama, Fantasy, Film—Noir, Horror, 
Musical, Mystery, Romance, Sci—Fi, Thriller, War, Western, 

e u.item: thông tin vé mỗi bộ phim. Một vài dòng đầu tiên của file: 


¬ 


Toy Story (1995) |01-Jan-1995||http://us.imdb.com/M/title-exact?Toy%20Story%20(1995) 
J0I0101141141110I10I10I0I00101010I10I0I0I0 

GoldenEye (1995) |01-Jan-1995||http://us.imdb.com/M/title-exact?GoldenEyes$20(1995) 
J0|1110101010I10I0I0I0I01010101011I10I0 

Four Rooms (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Four£20Rooms 
$20(1995)/0/[0/[0/[0/[0/[0/0/0/[0/[0/[0/[0/0/0/|0/[0/11/0/0 

Get Shorty (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Get£20Shorty 
$20(1995)|]0/|[1/[0/[0/0/[1/0/0/1/]0/[0/]0/[0/0/[0/0/|01/0/0 


N 


[99 


H> 
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Trong mỗi dòng, chúng ta sẽ thấy id của phim, tên phim, ngày phát hành, link trên imdb, 
và các số nhị phân 9, 1 phía cuối để chỉ ra bộ phim thuộc các thể loại nào trong 19 thể loại 
đã cho trong u.genre. Một bộ phim có thể thuộc nhiều thể loại khác nhau. Thông tin về thể 
loại này sẽ được dùng để xây dựng item profiles. 


Với cơ sở dữ liệu này, chúng ta sẽ sử dụng thêm thư viện pandas (http: // pandas.pydata. org) 
để đọc dữ liệu. 


from __future__ import print, function 
import numpy as np 

import pandas as pd 

# Reading user file: 


u cols = ['user id', 'age', 'sex', 'occupation', "zip code'] 
users = pd.read csv('ml-100k/u.user', sep-'|', names-u, cols) 
n users = users.shape[0] 

print('Number of users:', n users) 


#Reading ratings file: 
r cols = ['user id', 'movie id', 'rating', “unix timestamp'] 


ratings, base = pd.read csv('ml-100k/ua.base', sep-'Nt', names-r cols) 
ratings test = pd.read csv('ml-100k/ua.test', sep=’\t’, names-r cols) 


rate train = ratings base.as matrix() 
rate test - ratings test.as matrix() 


print('Number of traing rates:', rate train.shape[0]) 
print('Number of test rates:', rate test.shape[0]) 


Kết quả: 


Number of users: 943 
Number of traing rates: 90570 
Number of test rates: 9430 


Vì ta đang dựa trên thể loại của phim dé xây dựng profile, ta sẽ chỉ quan tâm tới 19 giá tri 
nhị phân ở cuối mỗi hàng: 


X0 = items.as matrix() 
X train counts = XO[:, -19:] 


17.4.2 Xây dung item profiles 


Cóng viéc quan trong trong content-based recommendation system là xày dung profile cho 
mỗi item, tức vector đặc trung cho mỗi item. Trước hết, chúng ta cần load toàn bộ thông 
tin về các item vào bién items: 
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#Reading items file: 

i cols = ['movie id’, 'movie title’ ,'release date','video release date’, 'IMDb URL’, 
‘unknown’, ‘Action’, 'Adventure', 'Animation', '’Children\’s’, 'Comedy', Crime’; 
Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', ' 
Romance”, 'Sci-Fi', 'Thriller', 'War', 'Western'] 


, 


items = pd.read csv('ml-100k/u.item', sep-'|', names-i cols) 


n items = items.shape[0] 
print('Number of items:', n items) 


Kết quả: 


Number of items: 1682 


Tiếp theo, chúng ta hiển thị một só hàng đầu tiên của ma trận rate_train 


print (rate_train[:4, :]) 


Két quá: 


874965758 
876893171 
878542960 
876893119 


PRPPP 
5 0) 6N Bê 
wow wu 


] 


Hang thứ nhất được hiểu là user thứ nhất đánh gid movie thứ nhất 5 sao. Cột cuối cùng là 
một số chỉ thời điểm đánh giá, chúng ta sẽ bỏ qua thông số này. 


Tiếp theo, chúng ta sẽ xây dựng feature vector cho mỗi item dựa trên ma trận thể loại phim 
và feature TF-IDF (https: //g00.gl/ bpDdQ8) trong thư viện sklearn. 


dtfidf 

from sklearn.feature extraction.text import TfidfTransformer 
transformer = TfidfTransformer(smooth idf-True, norm ='12') 

X = transformer.fit transform(X train counts.tolist()).toarray() 


Sau buóc này, mói hàng cüa x tuong úng vói vector dác trung cúa mót bó phim. 
17.4.3 Tim mó hinh cho mói user 


Với mỗi người dùng, chúng ta cần di tim những bộ phim nào mà người dùng đó đã đánh 
giá, và giá tri của các rating đó. 
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def get items rated by user(rate matrix, user id): 
"mnm 


return (item ids, scores) 

"mnm 

y = rate matrix[:,0] # all users 

# item indices rated by user id 

# we need to +1 to user id since in the rate matrix, id starts from 1 
$ but id in python starts from 0 

ids = np.where(y == user id +1)[0] 

item ids = rate matrix[ids, 1] - 1 # index starts from 0 


Scores = rate matrix[ids, 2] 
return (item ids, scores) 


Bây giờ, ta có thé di tìm các hệ số của Ridge Regression cho mỗi người dùng: 


from sklearn.linear model import Ridge 
from sklearn import linear_model 

d = X.shape[1] # data dimension 

W = np.zeros((d, n users)) 


b = np.zeros(n users) 

for n in range (n users): 
ids, scores - get items rated by user(rate train, n) 
model = Ridge(alpha=0.01, fit intercept = True) 


Xhat - X[ids, :] 
model.fit(Xhat, scores) 
W[:, n] = model.coef 
b[n] = model.intercept 


Sau khi tính được các hệ số w và b, rating má mỗi người dùng đánh giá mỗi bó phim được 
du doán báng cách: 


# predicted scores 
Yhat = X.dot(W) + b 


Dưới đây là một ví dụ với người dùng có id là 10. 


n= 10 

np.set printoptions(precision-2) # 2 digits after 
ids, scores = get items rated by user(rate test, n) 
print ("Rated movies ids :', ids ) 

print ("True ratings :', scores) 


print (‘Predicted ratings:', Yhat[ids, n]) 


Kết quả: 
Rated movies ids : [ 37 109 110 226 424 557 722 724 731 739] 
True ratings : [B 3434353 3 4] 


Predicted ratings: [3.18 3.13 3.42 3.09 3.35 5.2 4.01 3.35 3.42 3.72] 
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17.4.4 Dánh giá mó hinh 


Dé đánh giá mó hình tim được, chúng ta sẽ sử dụng Root Mean Squared Error (RMSE), tức 
căn bậc hai của trung bình cộng bình phương của lỗi. 


def evaluate (Yhat, rates, W, b): 

se = cnt = 0 

for n in xrange(n_users): 
ids, scores_truth = get_items_rated_by_user(rates, n) 
scores_pred = Yhat[ids, n] 
e = scores_truth - scores_pred 
se += (e*e).sum(axis = 0) 
cnt += e.size 

return np.sqrt (se/cnt) 


print (RMSE for training: $.2f' $evaluate(Yhat, rate train, W, b)) 
print ("RMSE for test : 5.2f” Sevaluate (Yhat, rate test, W, b)) 
Két quả: 

RMSE for training: 0.91 


RMSE for test E 1,27 


Như vậy, với training set, sai số vào khoảng 0.91 (sao); với test set, sai số lớn hơn một chút, 
khoảng 1.27. Các kết quả này chưa thực sự tốt vì mô hình đã được đơn giản hoá quá nhiều. 
Kết quả tốt hơn có thể được thấy trong các chương tiếp theo về collaborative filtering. 


17.5 Thảo luận 


e Content-based recommendation system là phương pháp đơn giản nhất trong các hệ thống 
recommendation system. Đặc điểm của phương pháp này là việc xây dựng mô hình cho 
mỗi user không phụ thuộc vào các user khác. 

e Việc xây dựng mô hình cho mỗi user có thể được coi như bài toán regression hoặc 
classsification với dữ liệu huấn luyện là các cặp (item profile, rating) má user đó đã đánh 
giá. Item profile không phụ thuộc vào user mà phụ thuộc vào các đặc điểm mô tả của 
item hoặc cũng có thể được xác định bằng cách yêu cầu người dùng gắn tag. 


e Source code trong chương này có thể được tìm thấy tai hffps:⁄⁄goo.gl/u9M2ub. 
Đọc thêm 


1. Recommendation Systems—Stanford InfoLab (https: // goo.gl/ P1pesC). 
2. Recommendation systems—Machine Learning, Andrew Ng (https: // goo.gl/jdFvej). 


3. Content Based Recommendations-Stanford University (https: // goo.gl/ 3wnbZ4 ). 
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Chuong 18 


Neighborhood-based collaborative 
filtering 


18.1 Giới thiệu 


Trong content-based recommendation system, chúng ta đã làm quen với một hệ thống gợi 
ý item đơn giản dựa trên vector đặc trưng của mỗi item. Đặc điểm của content-based 
recommendation system là việc xây dựng mô hình cho mỗi user không phụ thuộc vào các 
user khác mà phụ thuộc vào profile của các item. Việc làm này có lợi thé là tiết kiệm bộ nhớ 
và thời gian tính toán. Cách làm này có hai nhược điểm co bản. Th nhát, khi xây dựng mô 
hình cho một user, các hệ thống content-based không tận dụng được thông tin từ các user 
khác. Những thông tin này thường rất hữu ích vì hành vi mua hàng của các user thường 
được nhóm thành một vài nhóm đơn giản. Nếu biết hành vi mua hàng của một vài user 
trong nhóm, hệ thống nên có khả năng suy luận ra hành vi của những user còn lại. Thứ hai, 
không phải lúc nào chúng ta cũng có thể xây dung profile cho mỗi item. 


Những nhược điểm này có thể được giải quyết bằng một kỹ thuật có tên là collaborative 
filtering! (CF) [SFHS07, ERK*11]. Trong chương này, chúng ta cùng làm quen với một 
phương pháp CF có tên là neighborhood-based collaborative filtering (NBCF). Chương tiếp 
theo sẽ trình bày về một phương pháp CF khác có tên matriz factorization collaborative 
filtering. Khi chỉ nói collaborative filtering, ta sẽ ngầm hiểu rằng đó là neighborhood-based 
collaborative filtering. 


Y tưởng của NBCF là xác định mc độ quan tám của một user tới một item dựa trên hành 
vi của các user khác gần giống với user này. Việc gần giống nhau giữa các user có thể được 
xác định thông qua mức độ quan tâm của các user nay tới các item khác mà hệ thống đã 
biết. Ví dụ, 4, đều thích phim Cảnh sát hành sự, đều đã đánh giá bộ phim này ð sao. Ta 
đã biết A cũng thích Người phán xú, vậy nhiều khả năng cũng thích bộ phim này. 


! Tiếng Việt có tài liệu dich là lọc cộng hưởng. 
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Các ban có thé dá hinh dung ra, hai cáu hói quan trong nhát trong mót hé thóng 
neighborhood-based collaborative filtering lá 


1. Làm thế nào xác định được sự giống nhau giữa hai user? 


2. Khi đã xác định được các user gán giống nhau (similar user) rồi, làm thế nào dự đoán 
được mc độ quan tâm của một user lên một item? 


Việc xác dinh mức độ quan tâm của mỗi user tới một item dựa trên mức độ quan tâm của 
user tương tự tới item đó còn được gọi là user-user collaborative filtering. Có một hướng 
tiếp cận khác được cho là làm việc hiệu quả hon là item-item collaborative filtering. Trong 
hướng tiếp cận này, thay vì xác định sự giống nhau giữa các user, hệ thống sẽ xác định sự 
giống nhau giữa các item. Từ đó, hệ thống gợi ý những item gần giống vói những item mà 
user đó có mức độ quan tâm cao. 


Cấu trúc của chương như sau: Mục 18.2 trình bày user-user collaborative filtering. Mục 18.3 
nêu một số han chế của user-user collaborative filtering và cách khắc phục bằng item-item 
collaborative filtering. Kết quả của hai phương pháp này được trình bày qua ví dụ trên co sở 
dữ liệu MovieLens 100k trong Mục 18.4. Mục 18.5 thảo luận các ưu nhược điểm của NBCE. 


18.2 User-user collaborative filtering 
18.2.1 Hám xác dinh dó gióng nhau 


Công việc quan trọng nhất phải làm trước tiên trong user-user collaborative filtering là phải 
xác định được sự giống nhau (similarity) giữa hai user. Giả sử dit liệu duy nhất chúng ta 
có là utility matrix Y, vay sự giống nhau cần được xác định dựa trên các cột tương ứng với 
hai user trong ma trận này. Xét ví dụ trong Hình 18.1. 


Giả sử có các user từ uy đến ug và các item từ ig đến i4 trong đó các số trong mỗi ô vuông 
thể hiện số sao mà mỗi user đã đánh giá item đó với giá trị cao hon thể hiện mức độ quan 
tâm cao hơn. Các dấu hỏi chấm là các giá trị mà hệ thống cần phải di tìm. Dat mức độ 
giống nhau của hai user u;, uj là sim(u;, uj). Quan sát đầu tiên có thể nhận thấy là uo, u1 
thích io, 11,12 và không thích iz, i4 cho lắm. Điều ngược lại xảy ra ở các user còn lại. Vì vậy, 
một hàm do sự giống nhau similiarity function tốt cần dam bảo 


sim(uo, U1) > sim(uo, uj), Vi > 1. (18.1) 


Dé xác định mức độ quan tâm của ug lén iz, chúng ta nên dựa trên hành vi của u lên item 
này. Rất may rằng u, đã thích iz nên hệ thống cần khuyến nghi ia tới uo. 


Câu hỏi đặt ra là, hàm số similarity cần được xây dựng như thế nào? Dé do similarity giữa 
hai user, cách thường làm là xây dựng một vector đặc trưng cho mỗi user rồi áp dụng một 
hàm có khả năng đo similarity giữa hai vector đó. Chú ý rằng việc xây dựng vector đặc trưng 
này khác với việc xây dung item profile nhu trong content-based recommendation systems. 
Các vector này được xây dung truc tiếp dua trên ma tràn utility chứ không dùng thêm thông 
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Hinh 18.1: Ví du vé utility ma- 
trix dựa trên só sao một user đánh 
giá một item. Một cách truc quan, 
hành vi của uo gióng với u hơn là 
Ug, tủa, U4, Us, Uc. Từ đó có thể dự 
đoán rằng uy sé quan tâm tới i; vì 
ui cũng quan tam tới item này. 


tin bên ngoài như item profile. Với mỗi user, thông tin duy nhất chúng ta biết là các rating 
mà user đó đã thực hiện, tức cột tương ứng với user đó trong ma trận utility. Tuy nhiên, 
khó khăn là các cột này thường có rất nhiều giá trị bị khuyết (các dấu *?' trong Hình 18.1) 
vì mỗi user thường chỉ đánh giá một số lượng rất nhỏ các item. Một cách khắc phục là giúp 
hệ thống ban đầu ước lượng thô các giá trị này sao cho việc điền không làm ảnh hưởng nhiều 
tới sự giống nhau giữa hai vector. Việc ước lượng này chỉ phục vụ cho việc tính similarity, 
không phải là kết quả cuối cùng hệ thống cần ước lượng. 


Vậy mỗi dấu ‘?’ nên được thay bởi giá trị nào để hạn chế việc ước lượng bị sai lệch? Lua 
chon đầu tiên có thé nghĩ đén là thay các dấu ‘?’ bằng giá trị 0. Điều này không thực sự tốt 
vì giá trị 0 tương ứng với mức độ quan tâm thấp nhất; và một user chưa đánh giá một item 
không có nghĩa là họ hoàn toàn không quan tâm tới item đó. Một giá tri an toàn hơn là 2.5 
vì nó là trung bình cộng của 0, mức thấp nhất, và 5, mức cao nhất. Tuy nhiên, giá trị này 
có hạn chế đối với những user dé tính hoặc khó tính. Những user dễ tính có thể đánh giá 
ba sao cho các item họ không thích, ngược lại, những user khó tính có thể đánh giá ba sao 
cho những item họ thích. Việc thay đồng loạt các phần tử khuyết bởi 2.5 trong trường hợp 
này chưa mang lại hiệu quả. Một giá trị khả dĩ hơn cho việc này là ước lượng các phần tử 
khuyết như là giá trị trung bình mà một user đánh giá. Điều này giúp tránh việc một user 
quá khó tính hoặc dễ tính. Và các giá trị ước lượng này phụ thuộc vào từng user. Quan sát 
ví dụ trong Hình 18.2. 


Hàng cuối cùng trong Hình 18.2a là trung bình của các đánh giá của mỗi user. Các giá tri 
cao tương ứng với các user dé tính và ngược lại. Khi đó, nếu tiếp tục trừ từ mỗi rating đi giá 
trị trung bình này và thay các giá trị chưa biết bằng 0, ta sẽ được một ma trận utility chuẩn 
hoá (normalized utility matrix) như trong Hình 18.2b. Việc làm này có một vài ưu điểm: 


e Việc trừ di trung bình cộng của mỗi côt khiến mỗi cột có cả những giá trị dương va âm. 
Những item ứng với các giá trị dương có thể được coi như các item má user đó quan tâm 
hơn so những item ứng với các giá trị âm. Những item mang giá trị bằng 0 chủ yếu ứng 
với việc chua ác dinh được độ quan tâm của user đó. 
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uo ui ua ua ua us ug uo ui ua ua Uy us ug uo ui ua U3 Uy us us 
- z|5 |2 |0 1|? |? ip | 1.75| 2.25 | -0.5 |-1.33|-15| 0 | 0 uo | 1 |0.83 |-0.58|-0.79|-0.82| 0.2 |-0.38 
mo 2 [?7|?7|0L7|2|5 i |075| 0 | 0 |-133 0 | 05] 0 "i |0.83| 1 [-0.87|-0.40|-0.55 |-0.23 -0.71 
12 t 4 1 i? ? 1 1 ig 0 6257 abs ||) 0 0 | -0.5 -2.33 u2 |-0.58|-0.87| 1 | 0.27 | 0.32 | 0.47 | 0.96 
ma 2 lalala 3 la is |-1.25|-0.75| 0.5 [2.67 | 1.5 | 0 |0.67 u3 |-0.79|-0.40| 0.27 | 1 | 0.87 -0.29 0.18 
ow o o3 |7 |? |2?|7| 5s i4 |-1.25]-2.75] 15| 0 | 0 | 0 |167 "4 |-0.82|-0.55|0.32|0.87| 1 | 0 |016 
+ + +} FL + + 4 us | 0.2 |-0.23 0.47 |-0.29 0 1 | 0.56 
ñ¿ |325|275| 2.5 |1.33| 25 | 15 | 3.33 us |-0.38|-0.71| 0.96 | 0.18 | 0.16 |0.56| 1 
"nh b) Normalized utility matrix Y. C) User similarity matrix S. 
uo | tị | tạ | tạ | tạ | Us | Uc Predict normalized rating of uy on i4 with k = 2 uo | tị | tạ | tạ | tạ | Us | Us 
lo |1.75 | 2.25 | -0.5 |-1.33| -1.5 0.18 |-0.63| Users who rated i, : (uo, us, us) io | 5 |5 |2 |0 | 1 |168|270 


i, «bee m ca: Corresponding similarities: (0.83, -0.40, -0.23} 


=> most similar users: N (u1, i1) ={uo, us} 


i» |0.91 | 1.25 | -1.5 |-1.84|-1.78| -0.5 |-2.33 i» (415 4 | 1 |-05|071| 1 | 1 
with normalized ratings (0.75, 0.5) 
is |-125|-0.75| 0.5 | 2.67 | 1.5 | 0.59 | 0.67 ig |2 |2 |3 | 4 | 4 210| 4 
A _— 0.83*0.754(—0.23)*0.5 |. 
la |-125|-2.75| 1.5 |1.57 1.56 | 1.59 | 1.67 > Yiu = 0.834-| —0.23] = 0.48 à | 2 | 0 | 4 | 29 4063.10 5 
d) Y e) Example f) Full Y 


Hinh 18.2: Ví du mó tá User-user Collaborative Filtering. a) Utility Matrix ban dáu. b) Utility 
Matrix đã được chuẩn hoá. c) User similarity matrix. d) Dự đoán các (normalized) ratings còn 
thiéu. e) Ví du vé cách du đoán normalized rating của u cho i4. f) Du doán các (denormalized) 
ratings cón thiéu. 


e Về mặt kỹ thuật, só chiều của ma tran utility là rất lớn với hàng triệu user và item, néu 
lưu toàn bộ các giá trị này trong một ma trận thì khả năng cao là sẽ không đủ bộ nhớ. 
Quan sát thấy rằng vì số lượng đánh giá biết trước thường là một số rất nhỏ so với kích 
thước của ma trận utility, sẽ tốt hơn nếu chúng ta lưu ma trận này dưới dang một ma 
trận sparse, tức chỉ lưu các giá trị khác không và vị trí của chúng. Vì vậy, tốt hơn hết, 
các dấu '?' nên được thay bằng giá trị '0', tức chua xác định liệu user có thích item hay 
không. Việc này không những tối ưu bộ nhớ mà việc tính toán ma trận similarity sau 
này cũng hiệu quả hơn. Ỏ day, phần tử ở hàng thứ i, cột thứ j của ma tràn similarity là 
độ similarity của user thứ i và thứ 7. 


Sau khi dữ liệu đã được chuẩn hoá, hàm similarity thường được sử dụng là cosine similarity: 


ufu» 


cosine similarity(u;,us) = cos(u;, u2) = (18.2) 


7 [ui |[»- || uo]]o 


Trong đó uj. là các vector tuong ứng với user 1 và user 2 nhu ở trên. Có một hàm trong 
Python phục vụ cách tính giá trị này một cách hiệu quả, chúng ta sé thấy trong phần lập 
trình. 
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Mức độ similarity của hai vector là một số thực trong đoạn [-1, 1]. Giá trị bằng 1 thể hiện 
hai vector hoàn toàn similar nhau. Hàm só cos của một góc bằng 1 nghĩa là góc giữa hai 
vector bằng 0, tức hai vector có cùng phương và cùng hướng. Giá trị cos bằng -1 thể hiện 
hai vector này hoàn toàn trái ngược nhau, tức cùng phương nhưng khác hương. Diều này 
đồng nghĩa với việc nếu hanh vi của hai user là hoàn toàn ngược nhau thì mức độ similarity 
giữa hai vector đó là thấp nhất. 


Ví du về cosine similarity của các user (đã được chuẩn hoá) trong Hình 18.2b được cho 
trong Hình 18.2c. Ma trận similarity S là một ma trận đối xứng vi cos là một hàm chăn” , 
và nếu user A giống user B thì điều ngược lại cũng đúng. Các ô màu xanh trên đường chéo 
đều là cos của góc giữa một vector và chính nó, tức cos(0) = 1. Khi tính toán ở các bước 
sau, chúng ta không cần quan tâm tới các giá trị 1 này. Tiếp tục quan sát các vector hàng 
tương ứng với uo, u1, U2, chúng ta sẽ thấy một vài điều thú vi: 


e uo gan với uj và us (độ gióng nhau là dương) hơn các user còn lại. Việc similarity cao 
giữa ug và là dễ hiểu vì cà hai đều có xu hướng quan tâm tới io, i1, i2 hơn các item còn 
lại. Việc ug gan với ug thoạt đầu có vẻ vô lý vì us đánh giá thấp các item mà uy đánh giá 
cao (Hình 18.2a); tuy nhiên khi nhìn vào ma trận utility đã chuẩn hoá ở Hình 18.2b, ta 
thấy rằng điều này là hợp lý vì item duy nhất mà cả hai user này đã cung cấp thông tin 
là i, với các giá trị tương ứng đều là tích cực. 


e wu, gần với ug và xa các user còn lại. 


e U2 gan VỚI uz, U4, U5, ug Và xa các user còn lại. 


Từ ma tràn similarity này, chúng ta có thể phân nhóm các user ra làm hai nhóm (uo, u1) 
VA (uz, uz, Us, Us, ug). Vì ma trận S này nhỏ nên chúng ta có thể dé dàng quan sát thay điều 
này; khi só user lớn hơn, việc xác định bằng mắt thường là không khả thi. Việc xây dựng 
thuật toán phân nhóm các user (users clustering) sẽ được trình bày trong chương tiếp theo. 


Có một chú ý quan trọng ở đây là khi số lượng user lớn, ma trận S cũng rất lớn và nhiều 
khả năng là không có đủ bộ nhớ để lưu trữ, ngay cả khi chỉ lưu hơn một nửa số các phần 
tử của ma trận đối xứng này. Với các trường hợp đó, mới mỗi user, chúng ta chỉ cần tính và 
lưu kết quả của một hàng của similarity matrix, tương ứng với việc độ giống nhau giữa user 
đó và các user còn lại. 


18.2.2 Điền các giá trị khuyết trong ma trận utility 


Việc dự đoán múc độ quan tâm (predicted rating) của một user lên một item dựa trên các 
user gần nhất này rất giỗng với những gì chúng ta thấy trong K-nearest neighbors (KNN) 
với hàm khoảng cách là cosine similarity. 


Tương tự như KNN, NBCF cũng dùng thông tin của k user lân cận để dự đoán. Tất nhiên, 
để đánh giá độ quan tâm của một user lên một item, chúng ta chỉ quan tâm tới các user 


? Một hàm số f : R — R được gọi là chán nếu f(x) = ƒ(—z), Vx ER. 
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trong lân cận đã đánh giá item đó. Giá tri cần điền thường được xác định là trung binh có 
trọng số của các rating đã chuẩn hoá. Có một điểm cần lưu ý, trong KNN, các trọng số 
được xác định dựa trên khoảng cách giữa hai điểm, và các khoảng cách này là các số không 
âm. Trong NBCF, các trọng số được xác định dựa trên similarity giữa hai user, những trọng 
số này có thể nhỏ hơn 0. Công thức phổ biến được sử dụng để dự đoán só sao má user u 
đánh giá item i là? 

2 7; (ui) Piu; Slm(u, uy) 

2 AEN uS) |sim(u, uj)| 


trong đó N (u, 1) là tập hop k user gần giống nhất, tức có similarity cao nhất của u đã đánh 
giá i. Hình 18.2d thể hiện việc điền các giá trị còn thiếu trong ma trận utility đã chuẩn hoá. 


Yiu = (18.3) 


Các 6 màu nền đỏ thể hiện các giá trị dương, tức các item mà có thé user đó quan tâm. Ó 
đây, ngưỡng được lay là 0, ngưỡng này hoàn toàn có thể được thay đổi tuỳ thuộc vào việc 
ta muốn gợi ý nhiều hay ft item. 


Một ví dụ về việc tính normalized rating của uị cho i; được cho trong Hình 18.2e với só 
nearest neighbors là k = 2. Các bước thực hiện như sau 


1. Xác định các user đã đánh giá 1,, chúng là uo, uz, us. 


2. Mức độ similarity của uị với các user này làn lượt là (0.83, —0.40, —0.23}. Hai (k = 2) 
giá trị lớn nhất là 0.83 và —0.23 tuong ứng với uo và us. 


3. Xác dinh các đánh giá (đã chuẩn hoá) của up và us cho i, ta thu được hai giá trị làn 
lượt là 0.75 và 0.5. 


4. Du doán két quà 
0.83 x 0.75 + (—0.23) x 0.5 
finan = = 0.48 18.4 
js 0.83 + | — 0.23| ied) 


Việc quy đổi các giá trị đánh giá dà chuẩn hoá vé thang 5 có thé được thực hiện bằng cách 
cộng các cột của ma trận Y với giá trị đánh giá trung bình của mỗi user như đã tính trong 
Hình 18.2a. Việc hệ thống quyết định gợi ý item nào cho mỗi user có thể được xác định 
bằng nhiều cách khác nhau. Hệ thống có thể sắp xếp các item chưa được đánh giá theo độ 
giảm dần của predicted rating, hoặc có thể chỉ chọn các item có normalized predicted rating 
dương-tương ứng với việc user này có nhiều khả năng thích hơn. 


18.3 Item-item collaborative filtering 


User-user CF có một só han chế như sau: 


e Khi số lượng user lớn hơn số lượng item rất nhiều (điều này thường xảy ra), kích thước 
ma trận similarity là rất lớn (mỗi chiều của ma trận này có số phần tử chính bằng só 
user). Việc lưu trữ một ma trận với kích thước lớn nhiều khi không khả thi. 


3 Sự khác biệt so với trung bình có trọng số là mẫu số có sử dụng trị tuyệt đối để xử lý các số âm. 
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e Ma trận utility Y thường rất sparse, tức chi có một tỉ lệ nhỏ các phần tử đã biết. Với só 
lượng user rất lớn so với số lượng item, rất nhiều cột của ma trận này có rất ít, thậm chí 
không có phần tử khác 0 vì các user thường lười đánh giá item. Cũng chính vì thế, một 
khi user đó thay đổi các rating trước đó hoặc đánh giá thêm item, trung bình cộng các 
rating cũng như vector chuẩn hoá tương ứng với user này thay đổi nhiều. Kéo theo đó, 
việc tính toán ma trận similarity, vốn tốn nhiều bộ nhớ và thời gian, cũng cần được thực 
hiện lại. 


Có một cách tiếp cận khác, thay vì tim sự giống nhau giữa các user, ta có thể tìm sự giống 
nhau giữa các item. Từ đó nếu một user thích một item thì hệ thống nên gợi ý các item 
tương tự tới user đó. Việc này có một số ưu điểm: 


e Khi số lượng item nhỏ hơn số lượng user, ma trận similarity có kích thước nhỏ hơn, việc 
này khiến việc lưu trữ và tính toán ở các bước sau được thực hiện một cách hiệu quả hơn. 


e Cũng giả sử rằng số lượng item ít hơn số lượng user. Vì tổng lượng đánh giá là không đổi, 
số lượng trung bình các item được đánh giá bởi một user sẽ ít hơn số lượng trung bình 
các user đã đánh giá một item. Nói cách khác, nếu ma trận utility có số hàng ít hơn só 
cột, số lượng phần tử trung bình đã biết trong mỗi hàng sẽ nhiều hơn số lượng phần tử 
trung bình đã biết trong mỗi cột. Kéo theo đó, thông tin về mỗi item là nhiều hơn thông 
tin về mỗi user, việc tính độ similarity giữa các hàng cũng đáng tin cậy hon. Hơn nữa, 
giá trị trung bình của mỗi hàng cũng thay đổi ít hơn khi có thêm một vài đánh giá. Nhu 
vậy, việc cập nhật ma trận similarity có thể được thực hiện ít thường xuyên hơn. 


Cách tiếp cận thứ hai này được gọi là item-item collaborative filtering (item-item CF). Khi 
số lượng item ít hơn số lượng user, phương pháp này được ưu tiên sử dụng hon. 


Quy trình dự đoán các đánh giá bị khuyết cũng tương tự như trong user-user CF, chỉ khác 
là bây giờ ta cần tính độ giống nhau giữa các hàng. 


Liên hệ giữa item-item CF và user-user CF 


Về mặt tính toán, item-item CF có thể nhận được từ user-user CF bằng cách chuyển 


vi (transpose) ma trận utility, va coi như item đang đánh giá ngược user. Sau khi tính 
ra kết quả cuối cùng, ta lại chuyển vi một lần nữa để thu được kết quả. 


Hình 18.3 mó tả quy trình này với ví dụ nêu ở phần trên. Có một điểm thú vị trong ma 
trận similarity ở Hình 18.3c là có các phần tử trong hai khu vực hình vuông xanh và đỏ 
đều là các số không âm, các phần tử bên ngoài là các số âm. Việc này thể hiện rằng các 
item có thé được chia thành hai nhóm rõ rệt với những item có similarity không âm trong 
một nhóm cột vào một nhóm. Như vậy, một cách vó tinh, chúng ta đã thực hiện việc item 
clustering. Việc này sẽ giúp ích rất nhiều trong việc dự đoán ở phần sau vì các item gần 
giống nhau rất có thể đã được phân vào một nhóm. Kết quả cuối cùng về việc chọn ¡tem 
nào dé recommend cho mỗi user được thể hiện bởi các ô màu đỏ trong Hình 18.3d. Kết quả 
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uo | uj | tạ | us | us | us | uic uo | tị | u2 | us | tạ | us | trọ 
Wes | s | 2 6. 6 |? EA 9B io 70100. 060 
"N7... 7... A — lee i MENOS EON we ero 
iz MAI o HE í | 0 |2.25|-0.75| 0 | 0 |-0.75|-0.75 
ig EIA eee eed BA is |-1.17|-117|-0.17|0.83|0.83| 0 |0.83 
ia EIA A BA ia |-0.751-2.75 1.25] 0 | 0 | 0 |225 
O A b) Normalized utility matrix Y. 


and mean ¡tem ratings. 


io | 2.4 | 2.4 | -.6 | -2.6 | -1.6 -0.29|-1.52 


11 2 | 2.4 -06| -2 -125| 0 -225 


tg | 2.4 |2.25 -0.75| -2.6 |-1.20 -0.75 |-0.75 


t3 -1.17 |-1.17 |-0.17 0.83 | 0.83 | 0.34 | 0.83 


i4 |-0.75 -2.75 | 1.25 | 1.03 | 1.16 | 0.65 | 2.25 


C) Item similarity matrix S. d) Normalized utility matrix Y. 


Hinh 18.3: Ví du mó tà item-item CF. a) Ma trán utility ban dáu. b) Ma trận utility đã được 
chuẩn hoá. c) User similarity matrix. d) Dự đoán các (normalized) rating còn thiêu. 


này có khác một chút so với kết quả tìm được bởi user-user CF ở hai cột cuối cùng tuong 
ứng với us, ug. Duong như kết quà này hop ly hơn vi từ utility matrix, ta nhận thấy có hai 
nhóm user thích hai nhóm item khác nhau. Nhóm thứ nhất là uy và u1; nhóm thứ hai là các 
user còn lại. 


Mục 18.4 sau đây mô tả cách lập trình cho NNCF trên Python. Chú ý rằng thư viện sklearn 
chưa hỗ trợ các module cho recommendation system. Một thư viện khác khá tốt trên python 
ban đọc có thể tham khảo là surprise (http: //surpriselib.com/ ). 


18.4 Lập trình trên Python 


Thuật toán collaborative filtering trong chương này tương đối đơn giản và không chứa bài 
toán tối ưu nào. Chúng ta tiếp tục sử dụng bộ cơ sở dữ liệu MovieLens 100k như trong chương 
trước. Dưới đây là đoạn code thể hiện class uucF cho user-user collaborative filtering. Có 
hai phương thức chính của class này là fit-tính ma trận similarity, và predict-dự đoán só 
sao mà một user sẽ đánh giá một item. 
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from __future__ import print, function 

import pandas as pd 

import numpy as np 

from sklearn.metrics.pairwise import cosine similarity 
from scipy import sparse 


class uuCF (object): 
def _ init, (self, Y data, k, sim func = cosine similarity): 
self.Y data - Y data # a 2d array of shape (n users, 3) 
# each row of Y data has form [user id, item id, rating] 


self.k =k number of neighborhood 

self.sim_func = sim_func # similarity function, default: cosine_similarity 
self.Ybar = None # normalize data 

self.n_users = int (np.max(self.Y_data[:, 0])) + 1 # number of users 
self.n_items = int (np.max(self.Y_data[:, 1])) + 1 # number of items 


def fit(self): 
# normalized Y data -> Ybar 
users = self.Y data[:, 0] # all users - first column of Y data 
self.Ybar = self.Y data.copy() 
self.mu = np.zeros((self.n users,)) 
for n in xrange(self.n_users): 


# row indices of ratings made by user n 

ids = np.where(users == n) [0] .astype (np.int32) 
# indices of all items rated by user n 

item ids = self.Y data[ids, 1] 

# ratings made by user n 


ratings = self.Y data[ids, 2] 

# avoid zero division 

self.mu[n] = np.mean(ratings) if ids.size > 0 else O 
self.Ybar[ids, 2] = ratings - self.mu[n] 


## form the rating matrix as a sparse matrix. 
# see more: https://goo.gl/i2mmT2 
self.Ybar = sparse.coo matrix((self.Ybar[:, 2], 
(self.Ybar[:, 1], self.Ybar[:, 0])), (self.n items, self.n users)).tocsr() 
self.S = self.sim func(self.Ybar.T, self.Ybar.T) 


def pred(self, u, 1): 

""" predict the rating of user u for item i""" 
find item i 
ids = np.where(self.Y data[:, 1] == 1) [0] .astype (np.int32) 
all users who rated 1 
users rated i = (self.Y data[ids, 0]).astype (np.int32) 
similarity of u and users who rated i 


sim = self.S[u, users rated i] 
most k similar users 

nns = np.argsort (sim) [-self.k:] 

nearest_s = sim[nns] # and the corresponding similarities 
the corresponding ratings 

+ = self.Ybar[i, users rated i[nns]] 

eps = le-8 # a small number to avoid zero division 


return (r*nearest s).sum()/(np.abs(nearest s).sum() + eps) + self.mu[u] 


Tiép theo, ta áp dung vào MoviesLen 100k: 
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r cols = ['user id', 'movie id', 'rating', 
ratings base - pd.read csv('ml-100k/ua.base', 
ratings test - pd.read csv('ml-100k/ua.test', 


rate train - 
rate test - 


ratings base.as matrix() 
ratings test.as matrix() 


# indices start from 0 


rate_train[:, :2] -= 1 

rate test[:, :2] -= 1 

rs = uuCF(rate train, k = 40) 
rs. fit () 


n tests = rate test.shape[0] 

SE = 0 4 squared error 

for n in xrange (n tests): 
pred = rs.pred(rate test[n, 
SE += (pred - rate test[n, 


0], rate test[ 
2])**2 


RMSE = np.sqrt (SE/n tests) 
print('User-user CF, RMSE -', 


n, 


1]) 


'unix timestamp'] 
sep-'Nt', 
sep-'Nt', 


names-r cols) 
names-r cols) 


Kết quả: 


RMSE = 0.976614028929 


User-user CF, 


Như vậy, trung bình mỗi rating bị dự đoán sai lệch khoảng 0.976. Kết quả này có tốt hơn 
kết quả có được bởi content-based recommendation system. 


Tiếp theo, chúng ta áp dụng item-item CF vào tập cơ sở dữ liệu này. Dé áp dụng item-item 
CF, chúng ta chỉ cần chuyển vị ma trận utility. Trong trường hợp này, vì ma trận utility 
được lưu dưới dạng [user_id, item id, rating] nên ta chỉ cần đổi chỗ cột thứ nhất cho cột 


thứ hai của Y_data: 


rate_train = rate train[:, [1, 0, 2]] 
rate test = rate test[:, [1, 0, 2]] 
rs = uuCF(rate train, k = 40) 
+S.,#1£() 

n tests = rate test.shape[0] 


SE = 0 4 squared error 

for n in xrange(n tests): 
pred = rs.pred(rate test[n, 
SE += (pred rate test[n, 


0], rate test[ 
2])**2 


RMSE = np.sqrt (SE/n tests) 
print('Item-item CF, RMSE -', 


n, 


1]) 
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Két quá: 


Item-item CF, RMSE = 0.968846083868 


Như vậy, trong trường hợp này item-item collaborative filtering cho kết quả tốt hơn, ngay 
cả khi só item (1682) lớn hơn số lượng user (943). Với các bài toán khác, chúng ta nên thử 
cả hai trên một tập validation và chọn ra phương pháp cho kết quả tốt hơn. Chúng ta cũng 
có thể thay kích thước lân cận k bằng các giá trị khác và so sánh các kết quả. 


18.5 Thảo luận 


e CF là một phương pháp gợi ý item với ý tưởng chính dựa trên hành vi của các user tương 
tự khác lên cùng một item. Việc suy ra này được thực hiện dựa trên ma tràn similarity 
đo độ giống nhau giữa các user. 


e Dé tính ma trận similarity, trước tiên ta cần chuẩn hoá dữ liệu. Phương pháp phổ bién 
là mean offset, tức trừ các ratings di giá trị trung bình mà một user đưa ra cho các item. 


e Similarity function thường được dung là cosine similarity. 
e Một hướng tiếp cận tương tự là thay vì đi tìm các user gần giống với một user (user- 
user CF), ta đi tìm các item gần với một item cho trước (item-item CF). Trên thực tế, 


item-item CF thường cho kết quả tốt hon. 


e Source code của chương này có thé được tìm thấy tai https: // goo.gl/ vGKjbo. 
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Chuong 19 


Matrix factorization collaborative 
filtering 


19.1 Giói thiéu 


Trong Chương 18, chúng ta đã làm quen với một phương pháp collaborative filtering (CF) 
dựa trên hành vi của các user hoặc item làn cận. Trong chương này, chúng ta sẽ làm quen 
với một hướng tiếp cận khác cho collaborative filtering dựa trên bài toán phân tích ma trận 
thành nhân tú (matriz factorization hoặc matrix decomposition). Phương pháp này được gọi 
là matrix factorization collaborative filtering (MFCF) [KB V09]. 


Nhắc lại rằng trong content-based recommendation systems, mỗi item được mó tả bằng một 
vector x được goi là item profile. Trong phương pháp đó, ta cần tìm một vector hệ số w 
tương ứng với mỗi user sao cho rating đã biết mà user đó cho item xấp xi với 


UR WU X=X W (19.1) 


Với cách làm này, ma trận utility Y, giá sử đã được điền hết, sẽ xáp xi với: 


T T T 
X¡W¡ X¡W2... XI Wy xT 
Tw, xlw X4 wy T 
x m" 
2Wi X5 W2 2 x 
Y = = : [wi W2... Wy] = XTW (19.2) 
xl w xl w xl w x 
MNIAM? =- AMYN M 


với M,N lần lượt là só lượng item và user. Chú ý rằng trong content-based collaborative 
filtering, x được xây dựng dựa trên thông tin mó tá của item và quá trình xây dựng này độc 
lập với quá trình đi tìm hệ số phù hợp cho mỗi user. Như vậy, việc xây dung item profile 
đóng vai trò rất quan trọng và có ảnh hưởng trực tiếp lên hiệu năng của mô hình. Thêm 
nữa, việc xây dựng từng mô hình riêng lẻ cho mỗi user dẫn đến kết quả chưa thực sự tốt vì 
không khai thác được mối quan hệ giữa các user. 
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Y x Y = XTW 


K 


X |M X1 


(Full) Utility matrix 


N 
x| K W 


User features 


Item features 


Hinh 19.1: Matrix factorization. Ma trán utility Y € 


ma trán X € 


RMSE và We 


REXN 


RMXN được phân tích thành tích của hai 


Bây giờ, giả sử rằng ta không cần xây dựng từ trước các #em profile x mà vector đặc trưng 
cho mỗi item này có thể được huấn luyện đồng thời với mô hình của mỗi user (ở đây là một 
vector hệ số). Điều này nghĩa là, biến số trong bài toán tối ưu là cả X và W; trong đó, X là 
ma trận của toàn bộ item profile, mỗi cột tương ứng với một item, W là ma trận của toàn 
bộ user model, mỗi cột tương ứng với môt user. 


Với cách làm này, chúng ta dang cố gắng xáp xỉ ma trận utility Y € RY*N bằng tích của 


hai ma trận X € 


REM và W c 


REN Thông thường, được chon là một só nhỏ hơn rất 


nhiều so với M, N. Khi đó, cả hai ma tràn X và W đều có rank không vượt quá K. Chính 
vì vậy, phương pháp này còn được gọi là low-rank matrix factorization (xem Hình 19.1). 


Có một vài điểm cần lưu ý: 


e Ý tưởng chính đằng sau matrix factorization cho recommendation system là tồn tại các 


đặc trưng ẩn (latent feature) mô tả sự liên quan giữa các item và các user. Ví dụ, trong 
hệ thống khuyến nghị các bộ phim, tính chất an có thể là hành sự, chính trị, hành động, 
hài, v.v.; cũng có thé là một sự kết hợp nào đó của các thể loại này; hoặc cũng có thé là 
bất cứ điều gì mà chúng ta không thực sự cần đặt tên. Mỗi item sẽ mang tính chất ẩn ở 
một mức độ nào đó tương ứng với các hệ số trong vector x của nó, hệ số càng cao tương 
ứng với việc mang tính chất đó càng cao. Tương tự, mỗi user cũng sẽ có xu hướng thích 
những tính chất ẩn nào đó và được mô tả bởi các hệ số trong vector w của nó. Hệ số cao 
tương ứng với việc user thích các bộ phim có tính chất an đó. Giá trị của biểu thức xTw 
sẽ cao nếu các thành phần tương ứng của x và w đều cao (và dương). Điều này nghĩa là 
item mang các tính chất an mà user thích, vậy ta nên gợi ý item này cho user đó. 


Tại sao matrix factorization lại được xếp vào collaborative filtering? Câu trả lời đến từ 
việc đi tối ưu hàm mát mát mà chúng ta sẽ thảo luận ở Mục 19.2. Về cơ bản, để tim 
nghiệm của bài toán tối ưu, ta phải lần lượt đi tìm X và W khi thành phần còn lại được 
cố định. Như vậy, mỗi cột của X sẽ phụ thuộc vào toàn bộ các cột của W. Ngược lại, 
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mỗi cột của W lại phụ thuộc vào toàn bộ các cột của X. Nhu vậy, có những mỗi quan 
hệ ràng buộc chằng chit giữa các thành phần của hai ma trận trên. Tức chúng ta cần sử 
dụng thông tin của tất cả để suy ra tất cả. Vậy nên phương pháp này cũng được xếp vào 
collaborative filtering. 


e Trong các bài toán thực tế, số lượng item M và số lượng user N thường rất lớn. Việc 
tìm ra các mô hình đơn giản giúp dự đoán các rating cần được thực hiện một cách nhanh 
nhất có thể. Neighborhood-based collaborative filtering không yêu cầu việc huấn luyện 
quá nhiều, nhung trong quá trinh dự đoán, ta cần đi tìm độ similarity của user dang xét 
với toàn bộ các user còn lại rồi suy ra kết quả. Ngược lại, với matrix factorization, việc 
huấn luyện có thé hơi phức tạp một chút vì phải lặp đi lặp lại việc tối uu một ma trận 
khi có định ma trận còn lại, nhưng việc dự đoán đơn gián hơn vì ta chỉ cần lấy tích vô 
hướng của hai vector x’ w, mỗi vector có độ dài K là một số nhỏ hơn nhiều so với M, N. 
Vì vậy, quá trình dự đoán không yêu cầu khả năng tính toán cao. Việc này khiến nó phù 
hợp với các mô hình có tập dữ liệu lón. 


e Thêm nữa, việc lưu trữ hai ma trận X và W yêu cầu lượng bộ nhớ nhỏ so với việc lưu toàn 
bộ ma trận utility và similarity trong neighborhood-based collaborative filtering. Cụ thể, 
ta cần bộ nhớ dé chứa K(M + N) phần tử thay vi M? hoặc N? của ma trận similarity. 


19.2 Xây dựng và tối ưu hàm mát mát 
19.2.1 Xấp xỉ các đánh giá đã biết 


Như đã đề cập, đánh giá của user n lên item m có thể được xấp xi bởi „„ = xL wn. Ta 
cũng có thể thêm các bias vào công thức xấp xỉ này và tối ưu các bias đó. Cụ thể: 


Uria #9 xl wh + Bm + dn (19.3) 


Trong đó, bm và dn lượt lượt là các hệ só tự do tương tứng với item m và user n. Vector 
b = [b,,bo,...,by]* là vector bias cho các item, vector d = [dị,dạ,..., dw]” là vector bias 
cho các user. Giống như trong neighborhood-based collaborative filtering (NBCF), các giá tri 
này cũng có thé được coi là các giá tri giúp chuẩn hoá dữ liệu với b tương ứng với item-item 
CF và d tương ứng với user-user CF. Không giống như trong NBCF, các giá trị này sẽ được 
tối ưu để tìm ra các giá trị giúp xấp xỉ tập huấn luyện tốt nhất. Thêm vào đó, huấn luyện 
cùng lúc cả d và b giúp kết hợp cả user-user CF và item-item CF vào trong một bài toán 
tối ưu. Vì vậy, chúng ta mong đợi rằng phương pháp này sẽ mang lại hiệu quả tốt hơn. 


19.2.2 Hàm mát mát 


Hàm mát mát cho MFCF có thé được viết nhu sau 


N 
1 À 
£(X, W,b.d)- —-3^ Y. (bw, bn + da — mn) + EXI + WIR) — (94) 
nzlmn:irgun-l —— 


regularization loss 
data loss 
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trong đó rmn = 1 nếu item thứ m đã được đánh giá bởi user thứ n, s là số lượng rating trong 
tập huấn luyện, Ymn là rating chưa chuẩn hoá! của user thứ n cho item thứ m. Thành phần 
thứ nhất của hàm mát mát, data loss, chính là trung binh sai số của mô hinh. Thành phần 
thứ hai, regularization loss, là lz regularization, thành phan này giúp tránh overfitting?. 


Việc tối ưu đồng thời X, W, b, d là tương đối phức tap. Thay vào đó, phương pháp được sử 
dụng là lần lượt tối ưu một trong hai cáp (X, b), (W, đ) khi có định cặp còn lại. Quá trình 
này được lặp đi lặp lại tới khi hàm mát mát hội tu. 


19.2.3 Tối uu hàm mát mát 


Khi có định cặp (X, b), bài toán tối ưu cặp (W, d) có thể được tách thành N bài toán nhỏ: 


1 


Lai (Wn, dy) = Ge 


A 
$5 vn + bm + da — Đan)” + Wall (19.5) 


m:imn=1 


Mỗi bài toán có thể được tối ưu bằng gradient descent. Công việc quan trọng của chúng 
ta là tính các đạo hàm của từng hàm mất mát nhỏ này theo w„ và đ„. Vì biểu thức trong 
dấu Y chỉ phụ thuộc vào các item đã được đánh giá bởi user dang xét (tuong ứng với các 
Tmn = 1), ta có thé đơn giản (19.5) bằng cách đặt X,, là ma trận con được tạo bởi các cột 
của X tương ứng với các ¿tem đã được đánh giá bởi user n, b,, là vector bias con tuong ümg, 
và yn là các rating tuong úng. Khi dó, 


LilWn, dn) = 5.IRZw, bd 1 — Fn l|? + 2IIwall (19.6) 

với 1 là vector với mọi phần tử bằng 1 và kích thước phù hợp. Đạo hàm của nó là 
Vi bis (KT 0 a, (19.7) 
Vo, Ly = CƯ (KEW, + b, + d, — $4) (19.8) 


Công thức cập nhật cho w„ và d,, 
la ^ A 
Wn Wn — TJ (s40, + bạ + dal — Ÿ„) + Awn ) (19.9) 
S 
1 ^ A 
da = dn- Guccc +b, + d,1— 5,)) (19.10) 
E 


Tương tự nhu thế, mỗi cột Xm của X, tức vector đặc trung cho mỗi item, và bm sẽ được tim 
bằng cách tối ưu bài toán 


1 A 
Lo(Xm, bm) = Y (WAX + dn + bm — Yn)? + Slll (19.11) 
n:mn=1 


! việc chuẩn hoá sé được tự động thực hiện thông qua việc huấn luyện b và d 
2 Bạn đọc có thể thử cộng thêm ||b||2 + ||d||2 vào trong dấu ngoặc của regularization loss. Kết quả có thé thay đổi, 
nhưng không đáng kể. 
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Đặt W,, là ma trận được tao bằng các cột của W ứng với các user đã đánh giá item m, dm 
là vector con bias tương ứng, và y” là vector rating tương ứng. Bài toán (19.11) trở thành 


ls ^ : À 
L(Xm bm) = zzl Wan Xm + Am + bnt — Ÿm|| + 5 ||Xmllb (19.12) 


Tuong tu nhu trén, ta có 


Công thức cập nhật cho Xm và bm 


NES ä A 

Xm — XQ — f] (WWE, + dm + b„1 — Ÿ„„) + x (19.13) 
1 ^ A 

bm + bm — N (AE + dm 45, — 2) (19.14) 
S 


Trong muc tiép theo, chúng ta sé giái quyét bài toán này trén Python. 
19.3 Lập trinh Python 


Truóc hét, cháng ta sé viét mót class MF thuc hién viéc tói uu các bién vói mót ma tràn 
utility được cho dưới dang v. data giống như với NBCF. 


Truóc tién, ta khai báo mót vài thu vién càn thiét và khói tao class MF 


from _ future . import print, function 

import pandas as pd 

import numpy as np 

from sklearn.metrics.pairwise import cosine similarity 
from scipy import sparse 


class MF (object): 
def _ init, (self, Y, K, lam = 0.1, Xinit = None, Winit = None, 


learning rate = 0.5, max iter = 1000, print every - 100): 
self.Y = Y represents the utility matrix 
self.K =K £ 
self.lam = lam # regularization parameter 
self.learning_rate = learning_rate # for gradient descent 
self.max_iter = max_iter # maximum number of iterations 
self.print_every = print_every # print loss after each a few iters 
self.n_users = int (np.max(Y[:, 0])) + 1 
self.n_items = int (np.max(Y[:, 1])) + 1 
self.n_ratings = Y.shape[0] # number of known ratings 
self.X = np.random.randn (self.n items, K) if Xinit is None else Xinit 
self.W = np.random.randn(K, self.n_users) if Winit is None else Winit 
self.b = np.random.randn(self.n items) # item biases 
self.d = np.random.randn(self.n_users) # user biases 


Tiếp theo, chúng ta viết các phương thức loss, updateXb, updateWd cho class MF. 
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def loss(self): 
L= 0 
for i in range(self.n_ratings): 
# user_id, item_id, rating 
n, m, rating = int(self.Y[i, 0]), int(self.Y[i, 1]), self.Y[i, 2] 
L += 0.5*(self.X[m].dot(self.W[:, n]) + self.b[m] + self.d[n] - rating) **2 


L /= self.n_ratings 
# regularization, don’t ever forget this 
return L + 0.5*self.lam* (np.sum(self.X**2) + np.sum(self.W**2)) 


def updateXb (self): 
for m in range(self.n items): 

# get all users who rated item m and get the corresponding ratings 

ids = np.where(self.Y[:, 1] == m) [0] # row indices of items m 

user ids, ratings = self.Y[ids, 0].astype(np.int32), self.Y[ids, 2] 

Wm, dm = self.W[:, user ids], self.d[user ids] 

for i in range(30): # 30 iteration for each sub problem 
xm = self.X[m] 
error = xm.dot (Wm) + self.b[m] + dm - ratings 
grad_xm = error.dot (Wm.T)/self.n_ratings + self.lam*xm 
grad_bm = np.sum(error)/self.n_ratings 
# gradient descent 
self.X[m] -= self.learning rate*grad xm.reshape(-1) 
self.b[m] -= self.learning rate*grad bm 


def updateWd(self): # and d 
for n in range(self.n users): 
# get all items rated by user n, and the corresponding ratings 
ids = np.where(self.Y[:,0] == n) [0] 4 row indices of items rated by user n 
item ids, ratings = self.Y[ids, 1].astype(np.int32), self.Y[ids, 2] 
Xn, bn = self.X[item ids], self.b[item ids] 


for i in range(30): 4 30 iteration for each sub problem 
wn = self.W[:, n] 
error = Xn.dot (wn) + bn + self.d[n] - ratings 


grad wn = Xn.T.dot (error) /self.n ratings + self.lam*wn 
grad_dn = np.sum(error)/self.n_ratings 

# gradient descent 

self.W[:, n] -= self.learning rate*grad wn.reshape(-1) 
self.d[n] -= self.learning rate*grad dn 


Phán tiép theo là quá trinh tói uu chính cúa MF (£it), du doán rating mói (pred) và dánh 
giá chát Iugng mó hinh báng root-mean-square error (evaluate. RMSE). 


def fit(self): 
for it in range(self.max iter): 
self.updateWa () 
self.updateXb() 


if (it + 1) $ self.print every == 0: 
rmse train = self.evaluate RMSE(self.Y) 


print('iter = 3d, loss = $.4f, RMSE train = $.4f'$(it + 1, 
self.loss(), rmse train)) 
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def pred(self, u, 1): 


predict the rating of user u for item i 

"mmm 

ü; = int(u), int (1) 

pred = self.X[i, :].dot(self.W[:, u]) + self.b[i] + self.d[u]# + bias 
return max(0, min(5, pred)) # pred should be between 0 and 5 in MoviesLen 


def evaluate_RMSE(self, rate_test): 
n_tests = rate_test.shape[0] # number of test 
SE = 0 # squared error 
for n in range(n_tests): 
pred = self.pred(rate_test[n, 0], rate test[n, 1]) 
SE += (pred rate test[n, 2])**2 


RMSE - np.sqrt (SE/n tests) 
return RMSE 


Tới đây, chúng ta đã xây dung trong class MF với các phương thức cần thiết. Tiếp theo, chúng 
ta kiểm tra chất lượng mô hình khi nó được áp dung lên tập dữ lieu MoviesLen 100k. 


r cols = ['user 1d, 'movie 1d ', 'rating', 'unix timestamp'] 
ratings base = pd.read csv('ml-100k/ua.base', sep=’\t’, names-r cols) 
ratings test = pd.read csv('ml-100k/ua.test', sep=’\t’, names-r cols) 


rate train = ratings base.as matrix() 
rate test - ratings test.as matrix() 


# indices start from 0 


rate train[:, :2] -= 1 

rate test[:, :2] = 1 

rs = MF(rate train, K = 50, lam = .01, print every = 5, learning rate = 50, 
max iter = 30) 

rs.fit() 


# evaluate on test data 
RMSE = rs.evaluate RMSE(rate test) 
print (’\nMatrix Factorization CF, RMSE = $.4f' %RMSE) 


Ket qua: 

iter = 5, loss = 0.4447, RMSE train = 0.9429 
iter = 10, loss = 0.4215, RMSE train = 0.9180 
iter = 15, loss = 0.4174, RMSE train = 0.9135 
iter = 20, loss = 0.4161, RMSE train = 0.9120 
iter = 25, loss = 0.4155, RMSE train = 0.9114 
iter = 30, loss = 0.4152, RMSE train = 0.9110 
Matrix Factorization CF, RMSE = 0.9621 


RMSE thu được là 0.9621, tốt hơn so với NBCF trong chương trước (0.9688). 
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19.4 Tháo luán 


e Nonnegative matrix factorization. Khi dữ liệu chưa được chuẩn hoá, chúng đều mang 
các giá trị không âm. Ké cả trong trường hợp dải giá trị của rating có chứa giá trị âm, 
ta chỉ cần cộng thêm vào ma trận utility một giá trị hợp lý để có được các rating là các 
số không âm. Khi đó, một phương pháp matrix factorization khác với thêm ràng buộc 
cũng được sử dụng rất nhiều và mang lại hiệu quả cao trong recommendation system là 
nonnegative matriz factorization (NMF) [ZWFMOG6], tức phan tích ma trận thành tích 
các ma trận có các phần tử không âm. 


Thông qua matrix factorization, các user và item được liên kết với nhau bởi các đặc trung 
ẩn. Độ liên kết của mỗi user và item tới mỗi đặc trưng án được đo bằng thành phần 
tương ứng trong vector đặc trung của chúng, giá trị càng lớn thể hiện việc user hoặc item 
có liên quan đến đặc trưng an đó càng lớn. Bằng truc giác, sự liên quan của một user 
hoặc item đến một đặc trưng an nên là một số không âm với giá trị 0 thé hiện việc không 
liên quan. Hơn nữa, mỗi user và item chỉ liên quan đến một vài đặc trưng an nhất dinh. 
Vì vậy, các vector đặc trưng cho user và item nên là các vector không âm và có rất nhiều 
giá trị bằng 0. Những nghiệm này có thể đạt được bằng cách cho thêm ràng buộc không 
âm vào các thành phần của X và W. Dây chính là nguồn gốc của ý tưởng và tên gọi 
nonnegative matrix factorization. 


e Incremental matrix factorization. Như đã đề cập, thời gian dự đoán của một recom- 
mendation system sử dụng matrix factorization là rất nhanh nhưng thời gian huấn luyện 
là khá lâu với các tập dữ liệu lớn. Thực tế cho thấy, ma trận utility thay đổi liên tục vì có 
thêm user, item cũng như các rating mới hoặc user muốn thay đổi rating của họ, vì vậy 
các tham số mô hình cũng phải thường xuyên được cập nhật. Điều này đồng nghĩa với 
việc ta phải tiếp tục thực hiện quá trình training vốn tốn khá nhiều thời gian. Việc này 
được giải quyết phan nào bằng incremental matriz factorization [VJG14]. Tù incremental 
có thể được hiểu là điều chỉnh nhỏ cho phù hợp với dữ liệu. 


e Bai toán tối ưu của matrix factorization có nhiều hướng giải quyết khác ngoài cách 
áp dụng gradient descent. Bạn đọc có thể xem thêm Alternating Least Square (ALS) 
(https: // goo.gl/ yg2M4fb), Generalized Low Rank Models (https: //goo.gl/ DrDWyW), và 
Singular Value Decomposition [SKKR02, Pat07]. Chương 20 sẽ bàn kỹ hơn vé Singular 
Value Decomposition. 


e Source code trong chương này có thể được tìm thấy tai https: // goo.gl/ XbbFH4. 
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Phán VI 


Dimensionality reduction—Giam chiều dữ liệu 


Số lượng điểm dữ liệu và kích thước của các vector đặc trung thường rất lớn trong các bài 
toán thực tế. Nếu thực hiện lưu trữ và tính toán trực tiếp trên dữ liệu có số chiều cao 
này thì sẽ gặp khó khăn cả về việc lưu trữ và tốc độ tính toán. Vì vậy, giám chiều đữ liệu 
(dimensionality reduction hoặc dimension reduction) là một bước quan trọng trong nhiều 
bài toán machine learning. 


Một cách toán học, giảm chiều dữ liệu là việc đi tim một hàm số f : RP > RE với K < D 
biến một điểm dữ liệu x trong không gian có số chiều lớn RP thành một điểm z trong không 
gian có số chiều nhỏ hon RP. Việc giảm chiều dữ liệu có thể được thực hiện nhằm vào các 
mục đích khác nhau. Nó có thể phục vụ việc nén thông tin sao cho x có thể được suy ngược 
lại (xấp xỉ) từ z. Nó cũng có thể phục vụ các bài toán phân lớp bằng cách chọn ra những đặc 
trưng quan trọng (feature selection) hoặc tạo ra các đặc trưng mới từ đặc trưng cũ (feature 
extraction) sao cho kết quả của bài toán phân lớp được cải thiện. 


Trong nhiều trường hợp, làm việc trên dữ liệu được giảm chiều cho kết quả tốt hơn dữ liệu 
trong không gian ban đầu. 


Trong phần này, chúng ta sẽ xem xét các phương pháp giảm chiều dữ liệu phổ biến nhất: 
principle component analysis cho bài toán giảm chiều dit liệu vẫn giữ được tối đa lượng thông 
tin, và linear discriminant analysis cho bài toán giữ lại những đặc trưng quan trọng nhất 
cho việc phân lớp. Trước hết, chúng ta cùng tìm hiểu một phương pháp phân tích ma trận 
thành nhân tử vô cùng quan trọng — singular value decomposition. 


Chương 20 


Singular value decomposition 


20.1 Giới thiệu 


Nhác lai bài toán chéo hoá ma trận: Một ma trận vuông A € R”*” được gọi là chéo hoá 
được (diagonalizable) néu tồn tại ma trận đường chéo D và ma trận khả nghịch P sao cho: 


A = PDP“! (20.1) 
Số lượng phần tử khác 0 của ma trận đường chéo D chính là rank của ma trân A. 
Nhân cả hai về của (20.1) với P ta có: 
AP =PD (20.2) 


Gọi p;, d; lần lượt là cột thứ i của ma trận P và D. Vi mỗi một cột của về trái và về phải 
của (20.2) phải bằng nhau, ta cần có 


Ap, = Pd, = dip; (20.3) 


với dj; là phần tử thứ i của d;. Dấu bằng thứ hai xảy ra vi D là ma trận đường chéo, tức d; 
chỉ có thành phần đ„ là khác 0. Biểu thức (20.3) chỉ ra rằng mỗi phan tử dj; phải là một tri 
riêng cua A và mỗi vector cột p; phải là một vector riêng của A ứng với trị riêng dj. 


Cách phân tích một ma trận vuông thành nhân tử như (20.1) còn được goi là Eigen Decom- 
position. Một điểm quan trọng là cách phân tích này chỉ được áp dụng với ma trận vuông 
và không phải lúc nào cũng tồn tại. Nó chỉ tồn tại nếu ma trận A có n vector riêng độc lập 
tuyến tính, vì nếu không thì không tồn tại ma trận P khả nghịch. Thêm nữa, cách phân tích 
này cũng không phải là duy nhất vì néu P, D thoả mãn (20.1) thi kP, D cũng thoả mãn với 
k là một số thực khác 0 bất kỳ. 


Việc phân tích một ma trận ra thành tích của nhiều ma trận đặc biệt khác (matriz factor- 
ization hoặc matriz decomposition) mang lại nhiều ích lợi quan trọng mà các bạn sẽ thấy: 
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giảm só chiều dữ liệu, nén dữ liệu, tìm hiểu các đặc tính của dữ liệu, giải các hệ phương 
trình tuyến tính, clustering, và nhiều ứng dụng khác. Hệ thống khuyến nghị cũng là một 
trong rất nhiều ứng dụng của matrix factorization. 


Trong chương này, chúng ta sé làm quen với một trong những phương pháp matrix factor- 
ization rất đẹp của đại số tuyến tính có tên là singular value decomposition (SVD) [GR70]. 
Các bạn sẽ thấy, mọi ma trận, không nhất thiết là vuông, đều có thể được phân tích thành 
tích của ba ma trận đặc biệt. 


20.2 Singular value decomposition 
Để hạn chế nhầm lẫn trong các phép toán nhân ma trận, chúng ta cần để ý tới kích thước 


của mỗi ma trận. Trong chương này, ta sẽ ký hiệu một ma trận cùng với số chiều của nó, ví 
dụ Amxn dùng để ký hiệu một ma trận A € R™*". 


20.2.1 Phát biểu SVD 


Singular value decomposition 


Một ma trận Amxn bát ky đều có thể phân tích thành dang: 


Am = avn Date LÝ nên (20.4) 


Trong đó, U,V là các ma trận trực giao, © là một ma trận đường chéo cùng kích 
thước uới A. Các phần tử trên đường chéo chính của Y là không âm vá được theo thứ 
tự giám dần ơi > ơa > --- > o, >—=0=:---=0. Số lượng các phần tử khác 0 trong 
= chính là rank của ma trận A: r = rank(A). 


SVD của một ma trận bất ký luôn tồn tại. Bạn đọc có thể tìm thấy chứng minh cho việc 
này tại https:// goo.gl/ Tdt WDQ. Cách biểu diễn (20.4) không là duy nhất vì ta chỉ cần đổi 
dấu của cả U và V thì (20.4) vẫn thoả mãn. 


Hinh 20.1 mô ta SVD của ma trận Amxn trong hai trường hợp: m < n và m > n. Trường 
hợp m = n có thể xếp vào một trong hai trường hợp trên. 


20.2.2 Nguồn gốc tên gọi singular value decomposition 


Tạm bỏ qua chiều của mỗi ma trận, từ (20.4) ta có: 


AA? =USV”(USV”)f (20.5) 
=U»V7V%“U7 (20.6) 
= UXX TU" =U U> (20.7) 


Dau bằng ở (20.6) xảy ra vi VTV = I do V là một ma trận trực giao. Dấu bằng ở (20.7) 
xảy ra vì U là một ma trận trực giao. 
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(a) (m « n) 


AN 
Emxn | (b) (m> n) 


Hình 20.1: SVD cho ma trận A khi: m < n (hình trên), và m > n (hình dưới). X là một ma 
trận đường chéo với các phần tử trên đó giảm dàn và e âm. Màu đỏ càng đậm thê hiện giá 
trị càng cao. Các ô màu trắng trên ma trận này thê hiện giá trị 0. 


Quan sát thấy rằng NN” là một ma trận đường chéo với các phần tử trên đường chéo là 
02,02,.... Vậy (20.7) chính là một eigen decomposition của AA”. Thêm nữa, ø?,øi,... 
chính là các trị riêng của AA”. Ma trận AA” luôn là ma trận nửa xác định dương nên các 
trị riêng của nó là không âm. Các o;, là cán bậc hai của các trị riêng của AAT, còn được 
gọi là singular value của A. Tên goi singular value decomposition xuất phát từ day. 


Cũng theo đó, mỗi cột của chính là một vector riêng của A AT. Ta gọi mỗi cột này là một 
left-singular vector của A. Tương tự như thế, ATA = VETEVT và các cột của V còn được 


gọi là các right-singular vectors của A. 


Trong Python, để tính SVD của một ma trận, chúng ta sử dụng module linalg của numpy: 


from __future__ import print_function 
import numpy as np 
from numpy import linalg as LA 


m, n= 3, 4 

A = np.random.rand(m, n) 

U, S, V = LA.svd(A) # A = U*S*V (no V transpose here) 

# checking if U, V are orthogonal and S is a diagonal matrix with 
# nonnegative decreasing elements 


print (’Frobenius norm of (UU^T - I) =’, LA.norm(U.dot(U.T) - np.eye(m))) 
print ("Ss = ”, S) 
print (’Frobenius norm of (VV^T - I) =’, LA.norm(V.dot(V.T) - np.eye(n))) 
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Két quá: 

Frobenius norm of (UU^T - I) = 4.09460889695e-16 
S = [ 1.76321041 0.59018069 0.3878011 ] 
Frobenius norm of (VV^T - T) = 5.00370755311e-16 


Lưu ý rằng biến s được trả vé chỉ bao gồm các phần tử trên đường chéo của Y. Biến v tra 
về là VT trong (20.4). 


20.2.3 Singular value của một ma trận nửa xác định dương 


Giả sử A là một ma trận đối xứng vuông nửa xác định dương, ta sẽ chứng minh rằng các 
singular value của A chính là các tri riêng của nó. Thật vậy, gọi À là một tri riêng của A và 
x là một vector riêng ứng với trị riêng đó, hon nữa ||x|| = 1. Vì A là nửa xác định duong, 
ta phải có A > 0. Ta có 

Ax = Ax > AT Ax = AAx = Mx (20.8) 


Nhu vậy, A? là một tri riêng của ATA => singular value của A chính là VM = A. 
20.2.4 Compact SVD 
Viết lại biểu thức (20.4) dưới dạng tổng của các ma trận có rank bằng 1: 
A = ouv? + ouv} +--+ 0,u,v7 (20.9) 
với chú ý rằng mỗi u;vl, 1 <¡<r, là một ma trận có rank bằng 1. 


Rõ ràng trong cách biểu diễn này, ma trận A chỉ phụ thuộc vào r cột đầu tiên của U, V và 
r giá tri khác 0 trên đường chéo của ma trận X. Vì vậy ta có một cách phân tích gọn hơn 
và gọi là compact SVD: 

A = U,» (V (20.10) 


với U,, V, lần lượt là ma trận được tao bởi r cột đầu tiên của U và V. X, là ma trận con 
được tạo bởi r hàng đầu tiên và r cột đầu tiên của X. Nếu ma trận A có rank nhỏ hơn rất 
nhiều so với số hàng và số cột r « m, n, ta sẽ được lợi nhiều về việc lưu trữ. 


Dưới đây là ví dụ minh hoạ với m = 4,n = 6,r = 2. 
20.2.5 Truncated SVD 


Nhắc lại rằng trong ma tràn X, các giá trị trên đường chéo là không âm và giảm dần 
01209 2...,20,20—0—---— 0. Thông thường, chỉ một lượng nhỏ các c; mang giá 
trị lớn, các giá trị còn lại thường nhỏ và gần 0. Khi đó ta có thể xáp xỉ ma trận A bằng tổng 
của k < r ma trận có rank 1: 


A x A; = U,X,(V&)7 = ouv? + Øau2V2 Ho + C,U&VL (20.11) 
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A Ur 2, (Ve) 
01 Uy vr Ø2 U9 và 


+ 


Hình 20.2: Biểu diễn SVD dạng thu gọn và biểu diễn ma trận dưới dạng tổng các ma trận có 
rank bằng 1. Các khôi ma trận đặt cạnh nhau thê hiện phép nhân ma trận. 


Dưới đây là một định lý thú vị. Định lý này nói rằng sai số do cách xấp xỉ trên chính là căn 
bậc hai của tổng bình phương của các singular value mà ta đã bỏ qua ở phần cuối của Y. Ỏ 
đây sai số được định nghĩa là Frobineous norm của hiệu hai ma trận. 


Định lý 20.1: Sai số do xấp xỉ bởi truncated SVD 


Nếu xáp xỉ một ma trận A có rank r bởi truncated SVD với k < r phần tử, sai só do 
cách xấp xỉ này là 


|A — A¿l2= Y o? (8) (20.12) 


i=k+1 


Chứng minh: Sử dụng tính chát ||X||% = trace(XX7) và trace(X Y) = trace( YX) với mọi 
ma trán X, Y ta có 


+ 2 + T T 
|A — Azll# = D» c;u;vl|| = trace ` om!) ` sr) (20.13) 
i=k+1 F i=k+1 j=k+1 
€ e| y, p» rovend) €: e| » ca] (20.14) 
i=k+1 j=k+1 i=k+1 
= e| ` cut] (20.15) 
i=k+1 
= e| > “| = y o; (20.16) 
i=k+1 i=k+1 
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Dấu bằng thứ hai ở (20.14) xảy ra vi V có các cột vuông góc với nhau. Dấu bằng ở (20.15) 
xảy ra vì hàm trace có tính chất giao hoán. Dấu bằng ở (20.16) xảy ra vì biểu thức trong 
dấu ngoặc là một số vô hướng. 


Thay k =0 ta sẽ có 


IAli:= 72 ew 
i=l 
Từ đó : ho 
¡A — A; ||. 2 gi 20.18 
[AES ^ pae ¬ 
F j=l “J 


Nhu vay, sai só do xáp xi cang nhó néu các singular value bi truncated có gia tri 
càng nhỏ so với các singular value được giữ lại. Dây là một định lý quan trọng giúp 
xác định việc xáp xỉ ma trận dựa trên lượng thông tin muốn giữ lại. Với giả sử rằng lượng 
thông tin được định nghĩa là tổng bình phương của các singular value. Ví dụ, nếu ta muốn 
giữ lai ít nhất 90% lương thông tin trong A, trước hết ta tính $77 o}, sau đó chọn k là số 
nhỏ nhất sao cho 


k 2 
Lai 0 > 09 (20.19) 


Khi k nhỏ, ma trận A, có rank là k, là một ma trận có rank nhỏ. Vì vay, Truncated SVD 
còn được coi là một phương pháp low-rank approximation. 


20.2.6 Xấp xỉ rank k tốt nhất 


Người ta chứng minh được rằng! A, chính là nghiệm của bài toán tối ưu sau đây: 


min||A — Bl|z 
B (20.20) 
thoà mán: rank(B) — k 


và nhu đã chứng minh ở trên || A — Ag] = 57.4, 0;- 


Nếu sử dung l norm của ma trận (xem Phu luc A) thay vi Frobenius norm dé do sai só, Ax 
cũng là nghiệm của bài toán tối ưu 
min||A — B ||» 
B (20.21) 
thoå mán: rank(B) = k 
và sai só || A — A;||2 = 0%,,. Trong đó, norm 2 của một ma trận được định nghĩa bởi 


JAN, = max ||Ax||» (20.22) 


llxll2=1 


Frobenius norm và f% norm là hai norm được sử dụng nhiều nhất trong ma trận. Nhu vậy, 
xét trên cả hai norm này, truncated SVD đều cho xấp xỉ tốt nhất. Vì vậy, truncated SVD 
còn được coi là záp xi rank thấp tốt nhất (best low-rank approximation). 


! Singular Value Decomposition — Princeton (https: //goo.gl/hU38GF). 
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k = 50: error = 0.0059 k = 100: error = 0.0026 


(d) (e) (f) 


Hình 20.3: Ví dụ về SVD cho ảnh. (a) Bức ảnh góc là một ảnh xám, là một ma trận có 
960 x 1440. (b) Giá trị của các singular values của ma trận ảnh theo logscale. Có thể thấy rằng 
các singular value giảm nhanh ở khoảng k = 200. (c) Biểu diễn lượng thông tin được giữ lại khi 
chọn các k khác nhau. Có thể nhận thấy từ khoảng k = 200, lượng thông tin giữ lại là gần bằng 
1. Vậy ta có thể xâp xỉ ma trận ảnh này bằng một ma trận có rank nhỏ hơn. (d), (e), (f) Các 
ảnh xáp xỉ với k lần lượt là 5, 50, 100. 


20.3 SVD cho image compression 


Xét ví du trong Hình 20.3. Bức ảnh gốc trong Hình 20.3a là một ảnh xám có kích thước 
960 x 1440 pixel. Bức ảnh này có thể được coi là một ma trận A € IR960*1440. Ta có thé quan 
sát thấy rang ma trận này là low-rank vì rất nhiều tang của toà nhà nhìn tuong tự nhau. 
Hình 20.3b là giá trị của các singular value của bức ảnh được sắp xếp theo thứ tự giảm dần. 
Chú ý rằng giá trị của các singular value được biểu diễn trên thang log10 nên các giá trị 
singular đầu tiên rất lớn so với các giá trị singular ở cuối. Hình 20.3c mô tả chất lượng của 
việc xấp xi A bởi A; bằng truncated SVD. Ta cũng thấy rằng giá trị này xấp xỉ bằng 1 tại 
k = 200. Hình 20.3d, 20.3e, 20.3f là các bức ảnh xáp xi khi chon các giá tri k khác nhau. 
Khi k gần 100, lượng thông tin mất đi rơi vào khoảng nhỏ hơn 3%, ảnh thu được có chất 
lượng gần như ảnh gốc. 


Dé lưu ảnh với truncated SVD, ta sẽ lưu các ma trận U, € R"**, Y, € R***, V, e RP, 
Tong số phần tử phải lưu là k(m+n +1) với chú ý rằng ta chỉ cần lưu các giá trị trên đường 
chéo của X. Giả sử mỗi phan tử được lưu bởi một số thực bón byte, thé thì só byte cần lưu 
trữ là 4k(m + +1). Nếu so giá trị này với ảnh gốc có kích thước mn, mỗi giá trị là một só 
nguyên một byte, tỉ lệ nén là 

Ak(m 4- + 1) 


20.23 
E (20.23) 
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Khi k < m,n, ta được một ti lệ nhỏ hơn 1. Trong ví dụ trên, m = 960, n = 1440, k = 100, 
tỉ lệ nén là xáp xỉ 0.69, tức đã tiết kiệm được khoảng 30% bộ nhớ. 


20.4 Thảo luận 


e Ngoài ứng dụng nêu trên, SVD còn được ứng dụng trong việc giải phương trình tuyến 
tính thông qua giả nghịch đảo Moore Penrose (https: // goo.gl/ 4wrXue), recommendation 
system [SKKR00], dimensionality reduction [Cyb89], image debluring [HNO06], cluster- 
ing [DFK*04], v.v.. 


e Khi ma trận A lớn, việc tính toán SVD của nó tốn nhiều thời gian. Cách tính Truncated 
SVD với k nhỏ bằng cách tính SVD như được sử dụng trở nên không khả thi. Thay vào 
đó, có một phương pháp lặp giúp tính các tri riêng vá vector riêng của một ma trận lớn 
một cách hiệu quả, và ta chỉ cần tìm k trị riêng lớn nhất của AA” và các vector riêng 
tương ứng, việc này sẽ tiết kiệm được khá nhiều thời gian. Bạn đọc có thể tìm đọc thêm 
Power method for approximating eigenvalues (https: // goo.gl/ PfDqsn). 


e Source code trong chương này có thé được tìm thấy tai https:// goo.gl/ Z3wbsU. 


Doc thém 
1. Singular Value Decomposition - Stanford University (https: // goo.gl/ Gp726X). 
2. Singular Value Decomposition - Princeton (https: // goo.gl/ HKpcsB). 


3. CS168: The Modern Algorithmic Toolbox Lecture #9: The Singular Value Decomposition 
(SVD) and Low-Rank Matrix Approximations - Stanford (https: // goo.gl/ RV57KU). 


4. The Moore-Penrose Pseudoinverse (Math 33A - UCLA) (https: // goo.gl/ Vx MYz1 ). 
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Chương 21 


Principal component analysis 


21.1 Principal component analysis 


21.1.1 Y tuóng 


Giả sử dữ liệu ban đầu là x € RP và dữ liệu đã được giảm chiều là z € RE với K < D. 
Cách đơn giản nhất để giảm chiều dữ liệu từ D về K < D là chỉ giữ lai K phan tử quan 
trọng nhất. Có hai câu hỏi lập tức được đặt ra ở đây. Thứ nhất, làm thế nào để xác định 
tầm quan trọng của mỗi chiều dit liệu? Thứ hai, nếu tầm quan trọng của các chiều dí liệu 
là như nhau, ta cần bỏ đi những chiều nào? 


Để trả lời câu hỏi thứ nhất, ta hãy quan sát Hình 21.1a. Giả sử các điểm dữ liệu có thành 
phần thứ hai (phương đứng) giống hệt nhau hoặc sai khác nhau rất ít (phương sai nhỏ). Như 
vậy, thành phần này hoàn toàn có thể được lược bỏ đi, và ta ngầm hiểu rằng nó sẽ được xấp 
xỉ bằng kỳ vọng của thành phần đó trên toàn bộ các điểm dữ liệu. Ngược lại, việc làm này 
nếu được áp dụng lên thành phần thứ nhất (phương ngang) sẽ khiến lượng thông tin bị mất 
đi rất nhiều do sai số xấp xỉ là quá lớn. Lượng thông tin theo mỗi thành phần, vì vậy, có thể 
được đo bằng phương sai của dữ liệu trên thành phần đó. Tổng lượng thông tin có thể được 
coi là tổng phương sai trên toàn bộ các thành phần. Lấy một ví dụ về việc có hai camera 
được đặt dùng để chụp một con người, một camera đặt phía trước người và một camera đặt 
trên đầu. Rõ ràng, hình ảnh thu được từ camera đặt phía trước người mang nhiều thông tin 
hơn so với hình ảnh nhìn từ phía trên đầu. Vì vậy, bức ảnh chụp từ phía trên đầu có thể 
được bỏ qua mà không có quá nhiều thông tin về hình dáng của người đó bị mất. 


Câu hỏi thứ hai tương ứng với trường hợp Hình 21.1b. Trong cả hai chiều, phương sai của 
dữ liệu đều lớn; việc bỏ đi một trong hai chiều đều dẫn đến việc lượng thông tin bị mất đi 
là lớn. Tuy nhiên, quan sát ban đầu của chúng ta là nếu xoay trục toạ độ đi một góc phù 
hợp, một trong hai chiều dữ liệu có thể được giảm đi vì dữ liệu có xu hướng phân bố xung 
quanh một đường tháng. 
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Hình 21.1: Ví du vé phương sai của dữ liệu trong không gian hai chiều. (a) Chiều thứ hai có 
phương sai (tỉ lệ với độ rộng của đường hình chuông) nhỏ hơn chiều thứ nhất. (b) Cả hai chiều 
có phương sai đáng kể. Phương sai của mỗi chiều là phương sai của thành phần tương ứng được 
lẫy trên toàn bộ dữ liệu. Phương sai tỉ lệ thuận với độ phân tán của dữ liệu. 


N K D-K N 
D x = |DUK U Ki X 
D-K Y 
Original data An orthogonal matrix Coordinates in new basis 
K N x Y 
= x [K Z + B 
DUx D Ux 


Hinh 21.2: Y tưởng chính của PCA: Tim một hệ trực chuẩn mới sao cho trong hệ này, các 
thành phán quan trọng nhất nằm trong K thành phần đầu tiên. 


Principle component analysis (PCA) là một phương pháp đi tìm một phép xoay trục toa độ 
để được một hệ trục toạ độ mới sao cho trong hệ mới này, thông tin của dữ liệu chủ yếu tập 
trung ở một vài thành phần. Phần còn lại chưa ít thông tin hơn có thể được lược bỏ. 


Phép xoay trục toạ độ có liên hệ chặt chẽ tới hệ trực chuẩn và ma trận trực giao (xem 
Mục 1.9 và 1.10). Giả sử hệ cơ sở trực chuẩn mới là U (mỗi cột của U là một vector đơn 
vị cho một chiều) và chúng ta muốn giữ lại K toa độ trong hệ cơ sở mới này. Không mất 
tính tổng quát, giả sử đó là # thành phần đầu tiên. Quan sát Hình 21.2 với cơ sở mới 
U = Us, Üx] là môt hệ trực chuẩn với Ux là ma trận con tạo bởi K cột đầu tiên của U. 
Với cơ sở mới này, ma trận dữ liệu có thể được viết thành 


X=UxZ+ÐÖxY (21.1) 
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Từ đây ta cũng suy ra 


Z UL Z = UĻX 
B : ES ix (21.2) 


Mục đích của PCA là di tim ma trận trực giao U sao cho phần lớn thông tin được giữ lai 
ở phần màu xanh UxZ và phần màu đỏ Ux Y sẽ được lược bó và thay bằng một ma trận 
không phụ thuộc vào từng điểm dữ liệu. Cụ thể, ta sẽ xấp xỉ Y bởi một ma trận có toàn bộ 
các cột là nhu nhau. Chú ý rằng các cột này có thé phụ thuộc vào dü liệu huấn luyện nhưng 
không phụ thuộc váo đữ liệu kiểm thử. Gọi mỗi cột đó là b và có thể coi nó là bias, khi đó, 
ta sẽ xáp xi Y © b17, trong đó 17 € R!*N là một vector hàng có toàn bộ các phần tử bằng 
1. Giả sử đã tìm được U, ta cần tìm b thoả mãn: 


b = argminy||Y — b1” [4 = argminy| UT. X — b1” 2, (21.3) 
Giải phương trình đạo hàm theo b của hàm mục tiêu bằng 0: 
(bi — UTX)1=0=>Nb=U7X1 > b = UZx (21.4) 


ở đây ta đã sử dụng 171 = N vax = 4X1 là vector trung bình cúa toàn bô các cót cúa X. 
Với giá tri b tìm được này, dit liệu ban đầu sẽ được xáp xi bởi 


X =UxZ+U,Y ~ UKZ + Ü,b1* = UxZ + ỦxÙƑx1” 2X (21.5) 


21.1.2 Hàm mát mát 
Hàm mát mát của PCA có thé được coi như sai số của phép xáp xi, và được dinh nghĩa là 
TIX - A - 0, Oza17 |f 
= X IIO.OT(X - x17) 2 J 215) 


Chú ý rằng, nếu các cột của một ma trận V bất kỳ tạo thành một hệ trực chuẩn thì với một 
ma trận W bất kỳ, ta luôn có 

| VW. = trace(W7 V7 VW) = trace(W*W) = ||W ||2. (21.7) 
Dat X — X — x17. Ma tran nay có được bằng cách trừ mỗi cột (mỗi điểm dữ liệu) của X 


di trung bình các cột của nó. Ta gọi ma trận này X là zero-corrected data hoặc dú liệu đã 
được chuẩn hoá. Có thé nhận thay X, = x, — Xj, Vn = 1,2,..., N. 


Vi vày hàm mát mát trong (21.6) có thé dugc viét lai thành: 


D 
lars lora 1 T. 
J= ORR A (21.8) 
i=K+1 
1 2 D 
=H > u; XX” u; = ` u; Su; (21.9) 
i=K+1 i=K+1 
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với S — 39% là ma trận hiệp phương sai của đữ liệu và luôn là một ma trận nửa xác định 
dương (xem Mục 3.1.7). 


Công việc còn lại là tìm các u; để mát mát là nhỏ nhất. Trước hết, chúng ta có một nhận 
xét thú vị. Với ma trận U trực giao bát kỳ, thay K = 0 vào (21.9) ta có 


D 
1 S. 1 a A~ 
L= ` u/ Su; = s IX UI = a trace(X" UU" X) (21.10) 
i-l 
D 
1 ara Í "m 
= y trace(X X) = py trace(XX ) = trace(S) = 2 (21.11) 


Với À¡ > Ag > +--+ > Ap >0 là các trị riêng của ma trận nửa xác định dương S. Chú ý rằng 
các trị riêng này là thuc và không àm!. 


Như vậy L không phụ thuộc vào cách chọn ma trận trực giao U và bằng tổng các 
phần tử trên đường chéo của S. Nói cách khác, chính là tổng của các phương sai theo từng 
thành phần của dữ liệu ban dáu?. 


Vì vậy, việc tối thiểu hàm mát mát J được cho bởi (21.9) tương đương với việc tối da 


K 
F=L-J=À uSu? (21,12) 


i=1 


21.1.3 Tối ưu hàm mát mát 


Nghiệm của bài toán tối uu hàm mát mát cho PCA được tim dựa trên khẳng dinh sau đây. 


Nếu S là một ma trận nửa xác định dương, bài toán tối ưu 


K 
T 
y u/Su, 21.13 
E u; Su ( ) 


thoả mãn: UZ UK =I (21.14) 


có nghiệm u;,...,uy là các vector riêng ứng vói K trị riêng (kể cá lặp) lớn nhất của 
S. Khi đó, giá tri cúa hàm muc tiêu là 3 Ai, Đới Aq > Aa > --- > Ap là các trị 
riêng của S. 


Kháng định này có thể được chứng minh bằng quy nạp”. 


! Tổng các trị riêng của một ma trận vuông bất kỳ luôn bằng trace của ma trận đó. 

2 Mỗi thành phần trên đường chéo chính của ma trận hiệp phương sai chính là phương sai của thành phần dữ liệu 
tương ứng. 

# Xin được bỏ qua phần chứng minh. Ban doc có thể xem Excercise 12.1 trong tài liệu tham khảo [Bis06] với lời giải 
tại https: // goo.gl/ sM32pB. 
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Hình 21.3: PCA có thể được coi là phương 
pháp đi tìm một hệ cơ sở trực chuẩn đóng 
vai trò một phép xoay, sao cho trong hệ cơ 
sở mới này, phương sai theo một số chiều 
nào đó là rất nhỏ, và ta có thể bó qua. 


Trị riêng lớn nhất A, của ma trận hiệp phương sai S còn được goi là thành phán chính thú 
nhất (the first principal component), trị riêng thứ hai àz còn được gọi là thành phần chính 
thú hai, v.v.. Tên gọi phân tích thành phần chính (principal component analysis) bắt nguồn 
từ đây. Ta chỉ giữ lại K thành phần chính đầu tiên khi giảm chiều dí liệu dùng PCA. 


Hình 21.3 minh hoạ các thành phần chính với dữ liệu hai chiều. Trong không gian ban đầu 
với các vector cơ sở màu den e1, e», phương sai theo mỗi chiều dữ liệu (độ rộng của các hình 
chuông màu lục) đều lớn. Trong không gian mới với các vector cơ sở màu đỏ u1, Us, phương 
sai theo chiều thứ hai 65 rất nhỏ so với ôi. Điều này nghĩa là khi chiếu dí liệu lén us ta 
được các điểm rất gần nhau và gần với giá trị trung bình theo chiều đó. Trong trường hợp 
này, giá trị trung bình theo mọi chiều bằng 0 nên ta có thể thay thé toa độ theo chiều us 
bằng 0. Rõ ràng là nếu dữ liệu có phương sai càng nhỏ theo một chiều nào đó thì khi xấp 
xỉ chiều đó bằng một hằng số, sai số xấp xỉ càng nhỏ. PCA thực chất là đi tìm một phép 
xoay tương ứng với một ma trận trực giao sao cho trong hệ toạ độ mới, tồn tại các chiều 
có phương sai nhỏ mà ta có thể bỏ qua; ta chỉ cần giữ lại các chiều/thành phần khác quan 
trọng hơn. Như đã khẳng định ở trên, tổng phương sai theo mọi chiều trong hệ cơ sở nào 
cũng là như nhau và bằng tổng các trị riêng của ma trận hiệp phương sai. Vì vậy, PCA còn 
được coi là phương pháp giảm số chiều dữ liệu sao tổng phương sai còn lại là lớn nhất. 


Machine Learning cơ bản https: // machinelearningcoban. com 


259 CHUONG 21. PRINCIPAL COMPONENT ANALYSIS 


21.2 Các buóc thuc hien PCA 


Từ các suy luận phía trên, ta có thể tóm tắt lại các bước trong PCA như sau: 


1. Tính vector kỳ vọng của toàn bộ dữ liệu: x = E `. Xu. 


2. Trừ mỗi điểm dữ liệu đi vector kỳ vọng của toàn bộ dữ liệu để được dữ liệu chuẩn hoá: 


E, =X, —X (21.15) 
3. Đặt X = [&i,®¿,..., Xp] là ma trận dữ liệu chuẩn hoá, tính ma trận hiệp phuong sai 
Pas 
S=—ÄXX 21.16 
x (21.16) 


4. Tính các trị riêng và vector riêng tương ứng có l norm bằng 1 của ma trận này, sắp xếp 
chúng theo thứ tự giảm dần của trị riêng. 


5. Chon # vector riêng ứng với trị riêng lớn nhất để xây dung ma tràn Ux có các cột 
tạo thành một hé truc giao. K vectors này, còn được gọi là các thành phần chính, tạo 
thành một không gian con gan với phân bó của dữ liệu ban đầu đã chuẩn hoá. 

6. Chiếu dữ liệu ban đầu đã chuẩn hoá X xuống không gian con tìm được. 


7. Dữ liệu mới chính là toa độ của các điểm dữ liệu trên không gian mới: Z — ULX. 


Dữ liệu ban đầu có thé tính được xấp xỉ theo dữ liệu mới bởi x ~ U&Z +x. 


Một điểm dữ liệu mới v € RP (có thể không nằm trong tập huấn luyện) sẽ được giảm chiều 
bằng PCA theo công thức w = UT (v — X) € RF. Ngược lại, nếu biết w, ta có thể xấp xi v 
bởi Uxw + x. Các bước thực hiện PCA được minh hoa trong Hinh 21.4. 


21.3 Mói quan hệ giữa PCA va SVD 


Giữa PCA và SVD có mỗi quan hệ đặc biệt với nhau. Để nhận ra điều này, tôi xin được 
nhắc lại hai điểm đã trình bày sau đây: 


21.3.1 SVD cho bài toán xấp xỉ low-rank tốt nhất 
Nghiệm A của bài toán xấp xỉ một ma trận bởi một ma trận có rank không vượt quá k: 
min||X — A|| r 
A (21.17) 
thoả mãn: rank(A) = K 


chinh lá truncated SVD cúa A. 
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PCA procedure 


1. Find mean vector 2. Subtract mean 


3. Compute covariance 
matrix: 

_ 1YYT 
S = ¡XX 


4. Computer eigenvalues 
and eigenvectors of S: 
(Ai, U1), er; Ap, up) 

Remember the or- 
thonormality of u;. 


7. Obtain projected points 6. Project data to selected |5. Pick K eigenvectors w/ 
in low dimension. eigenvectors. highest eigenvalues 3 


T-----» 


Hinh 21.4: Các buóc thuc hién PCA. 


Cu thé, néu SVD cúa X € RP*N la 
X=USV7 (21.18) 


với U € RP*P? và V € R*** là các ma trận trực giao, và X € RP*N là ma trận đường chéo 
(không nhất thiết vuông) với các phần tử trên đường chéo không âm giảm dần. Nghiệm của 
bài toán (21.17) chính là: 


A — UxXk VI. (21.19) 


với U € RP** và V e R^*F* là các ma trận tao bởi K cột đầu tiên của U và V, va 
Nx € R*** là ma trận đường chéo con ứng với K hàng đầu tiên và K côt đầu tiên của X. 


21.3.2 Ý tưởng của PCA 


Trong PCA, nhu đã chứng minh ở (21.5), PCA là bài toán di tìm ma trận trực giao U và 
ma trận mô tá dữ liệu ở không gian thấp chiều Z sao cho việc xấp xỉ sau đây là tốt nhất: 


X= X=UxZ+UxUx1” (21.20) 
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với Ux, Ux lần lượt là các ma trận được tao bởi K côt đầu tiên và D — K cột cuối cùng 
của ma trận trực giao U, và x là vector kỳ vọng của dí liệu. 


Giả sử rằng vector kỳ vọng x = 0. Khi đó, (21.20) tương đương với 
X= X=UZ (21.21) 

Bài toán tối ưu của PCA sẽ trở thành: 
Ux,Z= arg min |X — Ux”||z 


(21.22) 
thoá mán: UTUx = lự 


với Ix € R*** là ma trận đơn vi trong không gian K chiều, và điều kiện ràng buộc là dé 
đảm bảo các cột của Ux tạo thành một hệ trực chuẩn. 


21.3.3 Quan hệ giữa PCA và SVD 


Bạn có nhận ra điểm tương đồng giữa hai bài toán tối ưu (21.17) và (21.22) với nghiệm của 
bài toán đầu tiên được cho trong (21.19)? Bạn có thể nhận ra ngay nghiệm của bài toán 
(21.22) chính là 


Ux trong (21.22) = Uxtrong (21.19) 
Z trong (21.22) = X&VLtrong (21.19) 


Vậy, nếu các điểm dữ liệu được biéu diễn bởi các cột của một ma trận, và trung bình cộng 
của mỗi hàng của ma trận đó bằng 0 (để cho vector trung bình bằng 0), thì nghiệm của bài 
toán PCA được rút ra trực tiếp từ truncated SVD của ma trận đó. Nói cách khác, việc đi 
tìm nghiệm cho PCA chính là việc giải một bài toán matrix factorization thông qua SVD. 


21.4 Làm thế nào để chọn số chiều của dữ liệu mới 


Một câu hỏi được đặt ra là, làm thế nào để chọn ra giá trị K — chiều của dữ liệu mới - với 
từng dữ liệu cụ thể? 


Có một cách xác định K là dựa trên việc lượng thông tin muốn giữ lai. Nhu đã trình bày, 
PCA còn được gọi là phương pháp tối đa tổng phương sai được giữ lại. Vậy ta có thể coi 
tổng các phương sai được giữ lại là lượng thông tin được giữ lại. 


Nhắc lại rằng trong mọi hệ trục toạ độ, tổng phương sai của dữ liệu là như nhau và bằng 
tổng các trị riêng của ma trận hiệp phương sai > Ai. Thêm nữa, PCA giúp giữ lại lượng 
thông tin (tổng các phương sai) là = 3 Ai. Vay ta có thé coi biểu thức: 


K 
Tk = Dia Ài (21.23) 


Fa Aj 


là tỉ lệ thông tin được giữ lại khi só chiều dữ liệu mới sau PCA là K. Như vậy, giả sử ta 
muốn giữ lai 99% dữ liệu, ta chỉ cần chọn K là số tự nhiên nhỏ nhất sao cho rg > 0.99. 
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Khi dữ liệu phân bố quanh một không gian con, các giá trị phương sai lớn nhất ứng với các 
A; đầu tiên lớn hơn nhiều so với các phương sai còn lai. Khi đó, ta có thé chọn được khá 
nhỏ dé đạt được rg > 0.99. 


21.5 Lưu ý về tính PCA trong các bài toán thực tế 


Có hai trường hợp trong thực tế mà chúng ta cần lưu ý về PCA. Trường hợp thứ nhất là 
lượng dữ liệu có được nhỏ hơn rất nhiều so với số chiều dữ liệu. Trường hợp thứ hai là khi 
lượng dữ liệu trong tập huấn luyện là rất lớn, có thể lên tới cả triệu. Việc tính toán ma trận 
hiệp phương sai và trị riêng đôi khi trở nên bất khả thi. Có những hướng giải quyết hiệu 
quả cho các trường hợp này. 


Trong mục này, ta sẽ coi như dữ liệu đã được chuẩn hoá, tức đã được trừ đi vector kỳ vọng. 
Khi đó, ma trận hiệp phương sai sẽ là S = xXXT. 


21.5.1 Số chiều dữ liệu nhiều hơn số điểm dữ liệu 


Đó là trường hợp D > N, tức ma tràn dí lieu X là một ma trận cao. Khi đó, só trị riêng 
khác không của ma trận hiệp phương sai S sẽ không vượt quá rank của nó, tức không vượt 
quá N. Vậy ta cần chọn K < N vì không thé chon ra được nhiều hơn N trị riêng khác 0 của 
một ma trận có rank bằng N. 


Việc tính toán các trị riêng và vector riêng cũng có thể được thực hiện một cách hiệu quả 
dựa trên các tính chất sau đây: 


Tính chất 1: Trị riêng của A cũng là trị riêng của kA với k # 0 bất kỳ. Điều này có thể 
được suy ra trực tiếp từ định nghĩa của trị riêng và vector riêng. 


Tính chất 2: Trị riêng của AB cũng là trị riêng của BA với A € R^**, B € Rx% là các 
ma trận bất kỳ và dị, dz là các số tự nhiên khác không bát kỳ. 


Nhu vậy, thay vi tim trị riêng của ma trận hiệp phương sai S € R?*”, ta đi tìm trị riêng 
của ma trận T = XTX € RN*N có số chiều nhỏ hơn (vì N < D). 


Tính chất 3: Giả sử (A, u) là một cặp trị riêng - vector riêng của T, thé thi (A, Xu) là một 
cặp tri riêng - vector riêng của S. That vậy, 


XTXu = Tu = lu > (XX”)(Xu) = \(Xu) (21.24) 


Dau bang thứ nhất xảy ra theo định nghĩa của trị riêng và vector riêng. Từ (21.24) ta suy 
ra Tính chất 3. 


Như vậy, ta có thể hoàn toàn tính được trị riêng và vector riêng của ma trận hiệp phương sai 
S dựa trên một ma trận T có kích thước nhỏ hơn. Việc này trong nhiều trường hợp khiến 
thời gian tính toán giảm đi đáng kể. 
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21.5.2 Vói các bai toán large-scale 


Trong rất nhiều bài toán, cà D và N đều là các số rất lớn, đồng nghĩa với việc ta phải 
tìm trị riêng cho một ma trận rất lớn. Ví dụ, có một triệu bức ảnh 1000 x 1000 pixel, 
như vậy D = N = 10% là một số rất lớn, việc trực tiếp tính toán trị riêng và vector riêng 
cho ma trận hiệp phuong sai là không khả thi. Tuy nhiên, có một phương pháp cho phép 
tính xấp xi các giá trị này một cách nhanh hơn. Phương pháp đó có tên là power method 
(https:// goo.gl/ eBRPzH ). 


21.6 Một vài ứng dung của PCA 


Ứng dụng đầu tiên có thể thấy của PCA chính là việc giảm chiều dữ liệu, giúp việc lưu trữ 
và tính toán được thuận tiện hơn. Thực tế cho thấy, nhiều khi làm việc trên dữ liệu đã được 
giảm chiều mang lại kết quả tốt hơn cho với dữ liệu gốc. Thứ nhất, có thể phần dữ liệu mang 
thông tin nhỏ bị lược đi chính là phần gây nhiễu, những thông tin quan trọng hơn đã được 
giữ lại. Thứ hai, số điểm dữ liệu nhiều khi ít hơn số chiều dữ liệu. Khi có quá ít dữ liệu và 
số chiều dữ liệu quá lớn, overfitting rất dễ xảy ra. Việc giảm chiều dí liệu phần nào giúp 
khắc phục hiện tượng này. 


Dưới đây là hai ví dụ về ứng dụng của PCA trong bài toán face classification và anomaly 
detection (dò điểm bát thường). 


21.6.1 Eigenface 


Eigenface từng là một trong các kỹ thuật phổ biến nhất trong bài toán nhận dạng khuôn 
mặt. Giả sử rằng vị trí các khuôn mặt đã được xác định trong ảnh và có kích thước như 
nhau, bài toán đặt ra là xác định đó là khuôn mặt của ai. Ý tưởng của eigenface là đi tìm 
một không gian có số chiều nhỏ hơn để mô tả mỗi khuôn mặt, từ đó sử dụng vector trong 
không gian thấp này như là vector đặc trưng đưa vào các bộ phân lớp. Điều đáng nói là 
một bức ảnh khuôn mặt có kích thước khoảng 200 x 200 sẽ có số chiều là 40k - là một số 
rất lớn, trong khi đó, vector đặc trưng thường chỉ có số chiều bằng vài trăm hoặc vài nghìn. 
Eigenface thực ra chính là PCA. Các eigenface chính là các vector riêng (eigenvector) ứng 
với các trị riêng lớn nhất của ma trận hiệp phương sai. 


Trong phần này, chúng ta cùng làm một thí nghiệm nhỏ trên cơ sở dữ liệu Yale face database 
(https: // goo.gl/ LNg8LS). Các bức ảnh trong thí nghiệm này đã được cán chỉnh cho cùng 
với kích thước và khuôn mặt nằm trọn vẹn trong một hình chữ nhật có kích thước 116 x 98 
pixel. Có tất cả 15 người khác nhau, mỗi người có 11 bức ảnh được chụp ở các điều kiện 
ánh sáng và cảm xúc khác nhau, bao gồm 'centerlight', 'glasses', happy”, 'leftlight', ” 
noglasses', 'normal', 'rightlight','sad', 'sleepy', 'surprised', và 'wink'. Hinh 21.5 minh 
hoa các bức ảnh của người có id là 10. 


Ta có thể thấy rằng số chiều dữ liệu là 116 x 98 — 11368 là một só khá lớn. Tuy nhiên, vi 
chỉ có tổng cộng 15 x 11 = 165 bức ảnh nên ta có thể nén các bức ảnh này về dữ liệu mới 
có chiều nhỏ hơn 165. Trong ví dụ này, chúng ta chọn K = 100. 


Machine Learning cơ bản https: // machinelearningcoban. com 


CHUONG 21. PRINCIPAL COMPONENT ANALYSIS 264 


` 


Hình 21.5: Ví dụ vé ảnh của một người trong Yale Face Database. 


Dưới đây là đoạn code thực hiện PCA cho toàn bộ dữ liệu. Ó dáy chúng ta truc tiép sú dung 
PCA trong sklearn. 


import numpy as np 
from scipy import misc † for loading image 
np.random.seed(1) 


# filename structure 


path = 'unpadded/' # path to the database 

ids = range (1, 16) # 15 persons 

states = ['centerlight', 'glasses', 'happy', 'leftlight', 
*noglasses', “normal”, "'rightlight','sad', 
'sleepy', 'surprised', 'wink' ] 

prefix = 'subject” 

surfix = '.pgm' 


# data dimension 
h, w, K = 116, 98, 100 # hight, weight, new dim 
D=h * w 
N = len(states)*15 
# collect all data 
X = np.zeros((D, N)) 
cnt = 0 
for person_id in range(1, 16): 
for state in states: 


fn = path + prefix + str(person id).zfill(2) + '.' + state + surfix 
X[:, cnt] = misc.imread(fn) .reshape (D) 
ent += 1 


# Doing PCA, note that each row is a datapoint 
from sklearn.decomposition import PCA 

pca = PCA(n_components=K) # K = 100 
pca.fit(X.T) 

# projection matrix 

U = pca.components .T 
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Hình 21.6: Các eigenfaces tìm được bằng PCA. 


Trong dòng pca = PCA(n_components=K), nếu n_components là một số thực trong khoảng (0, 1), 
PCA sẽ thực hiện việc tìm K dựa trên biểu thức (21.23). 


Hình biểu diễn 18 vector riêng đầu tiên (18 cột đầu tiên của U,) tìm được bằng PCA. 
Các vector đã được reshape về cùng kích thước như các bức ảnh gốc. Có một điều dễ nhận 
ra là các ảnh minh hoạ các vector thu được ít nhiều mang thông tin của mặt người. Thực 
tế, một khuôn mặt gốc sẽ được xấp xỉ như tổng có trọng số của các khuôn mặt này. Vì các 
vector riêng này đóng vai trò như cơ sở của không gian mới với ít chiều hơn, chúng còn được 
gọi là khuôn mặt chính, tức eigenface^ . Dé xem mức độ hiệu quả của Eigenface, chúng ta 
thử minh hoạ các bức ảnh gốc và các bức ảnh được xấp xỉ bằng PCA, kết quả được cho như 
trên Hình . Các khuôn mặt nhận được vẫn mang khá đầy đủ thông tin của các khuôn 
mặt gốc. Diéu dang nói hon, các khuôn mặt trong hàng dưới được suy ra từ một vector 100 
chiều, so với 11368 chiều như ở hàng trên. 


Source code cho chương này có thể được tìm thấy tại 


21.6.2 Abnormal Detection 


Ngoài các ứng dụng về nén và phân lớp, PCA còn được sử dụng trong nhiều lĩnh vực khác 
nhau. Abnormal detection, hay outlier detection (xác định các hiện tượng không bình thường) 


4 Từ riêng trong trường hợp này không thuc sự truyền tải thông tin. Từ chính được dùng vì nó di kèm với văn cảnh 
của phân tích thành phan chính. 
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Hình 21.7: Hàng trên: các ảnh gốc. Hàng dưới: các ảnh được suy ra từ eigenfaces. Ảnh ở hàng 
dưới có nhiều nhiễu nhưng vẫn mang những đặc điểm riêng mà mắt người có thể phân biệt được. 


Hình 21.8: PCA cho việc xác định các 
sự kiện bắt thường. Giả sử rằng các sự 
kiện bình thường chiêm đa sô và nằm 
gần trong một không gian con nào đó. 
Khi đó, nêu làm PCA trên toàn bộ dữ 
liệu, không gian con thu được gần với 
không gian con của tập các sự kiện 
bình thường . Lúc này, các điểm quá 
xa không gian con này, trong trường 
hợp này là các điểm màu cam, có thể 
được coi là các sự kiện bát thường. 


là một trong số đó [SCSC03, LCD04]. Thêm nữa, giả sử chúng ta không biết nhãn của các 
sự kiện này, tức ta đang làm việc với một bài toán không giám sát. 


Ý tưởng cơ bản là các sự kiện bình thường có thể nằm gần một không gian con nào đó, trong 
khi các sự kiện bất thường thường nằm xa không gian con đó. Hơn nữa, vì là bất thường 
nên số lượng các sự kiện thuộc loại này là rất nhỏ so với các sự kiện bình thường. Như vậy, 
chúng ta có thể làm PCA trên toàn bộ dữ liệu để tìm ra các thành phần chính của dữ liệu, 
từ đó suy ra không gian con mà các điểm bình thường nằm gần. Việc xác định một điểm là 
bình thường hay bất thường được xác định bằng cách đo khoảng cách từ điểm đó tới không 
gian con tìm được. Hinh 21.8 minh hoa cho việc xác định các sự kiện bất thường bằng PCA. 


21.7 Thảo luận 


e PCA là một phương pháp giảm chiều dữ liệu dựa trên việc tối đa lượng thông tin được 
giữ lại. Lượng thông tin được giữ lại được đo bằng tổng các phương sai trên mỗi thành 
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phần của dữ liệu. Lượng dữ liệu sẽ được giữ lại nhiều nhất khi các chiều dí liệu còn lại 
tương ứng với các vector riêng của trị riêng lớn nhất của ma trận hiệp phương sai. 


e Với các bài toán large-scale, đôi khi việc tính toán trên toàn bộ dữ liệu là không kha thi 
vì còn có vấn đề về bộ nhớ. Giải pháp là thực hiện PCA lần đầu trên một tập con dữ liệu 
vừa với bộ nhớ, sau đó lấy một tập con khác dé tw tu (incrementally) cập nhật nghiệm 
của PCA tới khi nào hội tụ. Ý tưởng này khá giống với mini-batch Gradient Descent, và 
được goi là Incremental PCA [ZY K 06]. 


e Ngoài ra, cón rát nhiéu huóng mó róng cúa PCA, ban doc có thé tim kiém theo tit khoá: 
Sparse PCA [dGJL05], Kernel PCA [MSST99|, Robust PCA [CLMW11]. 
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Chuong 22 


Linear discriminant analysis 


22.1 Giới thiệu 


Trong chương trước, chúng ta đã làm quen với một thuật toán giảm chiều dữ liệu phổ 
biến nhất — principle component analysis (PCA). Như đã đề cập, PCA là một mô hình 
unsupervised learning, tức là nó chỉ sử dụng các vector mô tả dữ liệu mà không cần tới 
nhãn, nếu có, của dữ liệu. Tuy nhiên, trong bài toán phân lớp, việc khai thác mối liên quan 
giữa dữ liệu và nhãn sẽ mang lại kết quả phân loại tốt hơn. 


Nhắc lại rằng PCA là phương pháp giảm chiều dữ liệu sao cho lượng thông tin về dữ liệu, 
thể hiện ở tổng phương sai của các thành phần được giữ lại, được giữ lại là nhiều nhất. Tuy 
nhiên, trong nhiều bài toán, ta không cần giữ lại lượng thông tin lớn nhất mà chỉ cần giữ 
lại thông tin cần thiết cho riêng bài toán đó. Xét ví dụ về bài toán phân lớp nhị phân được 
mô tả trong Hình 22.1. Ở đây, ta giả sử rằng dữ liệu được chiếu lên một đường thẳng và 
mỗi điểm được thay bởi hình chiếu của nó lên đường thẳng kia. Như vậy, số chiều dữ liệu 
đã được giảm từ hai về một. Câu hỏi đặt ra là, đường thắng cần có phương như thế nào để 
hình chiếu của dữ liệu trên đường thắng này giáp ích cho tiệc phân lớp nhất? Việc phân lớp 
đơn giản nhất có thể được hiểu là việc tìm ra một ngưỡng giúp phân tách hai lớp một cách 
đơn giản và đạt kết quả tốt nhất. Xét hai đường tháng dı và dy. Trong đó phương của dı 
gần với phương của thành phần chính nếu thực hiện PCA, phương của dy gần với phuong 
của thành phần phụ tìm được bằng PCA. Nếu ta làm giảm chiều dữ liệu bằng PCA, ta sẽ 
thu được dữ liệu gần với các điểm được chiếu lên dı. Lúc này việc phân tách hai lớp trở nên 
phức tap vì các điểm dữ liệu mới của hai lớp chồng lẫn lên nhau. Ngược lại, nếu ta chiếu 
dữ liệu lên đường thẳng gần với thành phần phụ tìm được bởi PCA, tức dạ, các điểm hình 
chiếu nằm hoàn toàn vé hai phía khác nhau của điểm màu lục trên đường thang này. Với 
bài toán phân lớp, việc chiếu dữ liệu lên da vì vậy sẽ mang lại hiệu quá hơn. Việc phân loại 
một điểm dữ liệu mới sẽ được xác định nhanh chóng bằng cách so sánh hình chiếu của nó 
lên da với điểm màu xanh lục này. 
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Hình 22.1: Chifu dữ liệu lên các đường thẳng khác nhau. Có hai lớp dữ liệu minh hoạ bởi các 
điểm màu xanh và đỏ trong không gian hai chiều. Số chiều được giảm vé một bằng cách chiêu 
dữ liệu lên các đường tháng khác nhau d; và də. Trong hai cách chiêu này, phương của d; gần 
gióng với phương của thành phán chính thứ nhất của dữ liệu, phương của d» gần với thành phán 
phụ của dữ liệu néu dùng PCA. Khi chiếu dữ liệu lên dı, nhiều điểm màu đỏ và xanh bị chồng 
lẫn lên nhau, khién cho việc phân loại dữ liệu là không khả thi trên đường thẳng này. Ngược lại, 
khi được chiêu lén d», dữ liệu của hai lớp được chia thành các cum tương ứng tách biệt nhau, 
khiến cho việc phân lớp trở nên đơn giản hơn và hiệu quả hơn. Các đường cong hình chuông thể 
hiện xáp xi phân bó xác suất của dữ liệu hình chiêu trong mỗi lớp. 


Qua ví dụ trên ta thấy rằng, không phải trong mọi trường hợp việc giữ lại thông tin 
nhiều nhất sẽ luôn mang lại kết quả tốt nhất. Chú ý rằng kết quả của phân tích trên 
đây không có nghĩa là thành phần phụ mang lại hiệu quả tốt hơn thành phần chính. Việc 
chiếu dữ liệu lên đường thắng nào giúp ích cho các bài toán phân lớp cần nhiều phân tích cụ 
thể hơn nữa. Ngoài ra, hai đường thằng dı và da trên đây không vuông góc với nhau, chúng 
được chọn gần với các thành phần chính và phụ của dữ liệu phục vụ cho mục đích minh hoạ. 


Linear discriminant analysis (LDA) được ra đời nhằm tìm ra phương chiếu dữ liệu hiệu quả 
cho bài toán phân lớp. LDA có thể được coi là một phương pháp giảm chiều dữ liệu, cũng 
có thể được coi là một phương pháp phân lớp, và cũng có thể được áp dụng đồng thời cho 
cả hai, tức giảm chiều dí liệu sao cho việc phân lớp hiệu quả nhất. Số chiều của dữ liệu mới 
là nhỏ hơn hoặc bằng C — 1 trong đó C là số lượng lớp dữ liệu. Từ discriminant được hiểu 
là những thông tin đặc trung cho mói lớp, khiến nó không bi lẫn vói các classes khác. Tù 
linear được dùng vì cách giảm chiều đữ liệu được thực hiện dựa trên một ma trận chiếu — 
là một phép biến đổi tuyến tính. 


Trong Mục 22.2 dưới đây, chúng ta sẽ thảo luận về LDA cho bài toán phân lớp nhị phân. 
Mục 22.3 sẽ tổng quát LDA lên cho trường hợp với nhiều lớp dữ liệu. Mục 22.4 sẽ có các ví 
dụ và code Python cho LDA. 
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Hình 22.2: Khoảng cách giữa các kỳ vong và tổng các phương sai ảnh hưởng tới độ discriminant 
của dữ liệu. (a) Khoảng cách giữa hai kỳ vọng là lớn nhưng phương sai trong mỗi class cũng lớn, 
khiến cho hai phân phối chóng lẫn lên nhau (phần màu xám). (b) Phương sai cho mỗi class là 
rất nhỏ nhưng hai kỳ vong quá gần nhau, khiến khó phân biệt hai class. (c) Khi phương sai đủ 
nhỏ và khoảng cách giữa hai kỳ vọng đủ lớn, ta thấy rằng dữ liệu discriminative hơn. 


22.2 LDA cho bài toán phân lớp nhị phân 


22.2.1 Ý tưởng cơ bản 


Quay lại với Hình 22.1, giả sử rằng dit liệu của mỗi lớp khi được chiếu xuống một đường 
thang tuân theo phân phối chuẩn, có hàm mật độ xác suất là một đường hình chuông. Độ 
rộng của mỗi đường hình chuông này thể hiện độ lệch chuẩn (standard deviation!, ký hiệu 
là s) của dữ liệu. Dữ liệu càng tập trung thì độ lệch chuẩn càng nhỏ, càng phân tán thì độ 
lệch chuẩn càng cao. Khi được chiếu lên d, dí liệu của hai lớp bi phân tán quá nhiều, khiến 
cho chúng bi trộn lẫn vào nhau. Khi được chiếu lên do, mỗi lớp đều có độ lệch chuẩn nhỏ, 
khiến cho dữ liệu trong từng lớp tập trung hơn, dẫn đến kết quả tốt hơn. 


Tuy nhiên, việc độ lệch chuẩn nhỏ trong mỗi lớp chưa đủ để đảm bảo độ discriminant của 
dữ liệu là tốt hơn. Xét các ví dụ trong Hình 22.2. Hình 22.2a chính là trường hợp trong 
Hinh 22.1 khi dí liệu được chiếu lên dı. Cả hai lớp đều quá phân tán khiến cho lượng chóng 
lấn (phần diện tích màu xám) là lớn, tức dữ liệu chưa thực sự discriminative. Hình 22.2b là 
trường hợp khi độ lệch chuẩn của hai lớp đều nhỏ, tức dữ liệu trong mỗi lớp tập trung hơn. 
Tuy nhiên, vấn đề với trường hợp này là khoảng cách giữa hai lớp, được đo bằng khoảng 
cách giữa hai kỳ vong mı và mo, là quá nhỏ, khiến cho phần chồng lan cũng chiếm môt tỉ lệ 
lớn, và tất nhiên, cũng không tốt cho việc phân lớp. Hình 22.2c là trường hợp khi cả hai độ 
lệch chuẩn là nhỏ và khoảng cách giữa hai kỳ vọng là lớn, phần chống lẫn nhỏ không đáng 
kể. 


1 độ lệch chuẩn là cán bậc hai của phương sai 
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Vậy, độ lệch chuẩn và khoảng cách giữa hai kỳ vọng cu thể đại diện cho các tiêu chí gì? 


e Dộ lệch chuẩn nhỏ thể hiện việc dữ liệu ít phân tán, tức dữ liệu trong mỗi lớp có xu hướng 
giống nhau. Hai phương sai s7, s2 còn được gọi là các within-class variance. 


e Khoảng cách giữa các kỳ vọng là lớn chứng tỏ rằng hai lớp nằm xa nhau, tức dữ liệu giữa 
các lớp là khác nhau nhiều. Binh phương khoảng cách giữa hai kỳ vọng (mı — ma)? còn 
được gọi là between-class variance. 


Hai lớp dit liệu được gọi là discriminative nếu hai lớp đó cách xa nhau (between-class variance 
lớn) và dí liệu trong mỗi lớp có xu hướng giống nhau (within-class variance nhỏ). LDA là 
thuật toán đi tìm một phép chiếu sao cho tỉ lệ giữa between-class variance và within-class 
variance lớn nhất có thể. 


22.2.2 Hàm mục tiêu của LDA 


Giả sử rằng có N điểm dữ liệu x1, xo,...,xw € RP trong đó N, < N điểm đầu tiên thuộc 
lớp thứ nhất, No = N — N; điểm còn lại thuộc lớp thứ hai. Ký hiệu C4 = (n|1 < n € Ni) là 
tập hợp các chi số của các điểm thuộc lớp thứ nhất và Cj = {m|N, + 1 < m € N}) là tap 
hợp các chỉ số của các điểm thuộc lớp thứ hai. Phép chiếu dữ liệu xuống một đường thẳng 
có thể được mô tả bằng một vector hệ số w, giá trị tương ứng của mỗi điểm dữ liệu mới 
được cho bởi 


z„=WIx„l<Xn<N (22.1) 


Vector kỳ vọng của mỗi lóp được tính bởi 


1 
m, = — 2 x, k=1,2 (22.2) 
Ny nECk 
1 1 
> m -m= 5 20% q 27 =W (m — my) (22.3) 
1€C1 jECa 


Các within-class variance được định nghĩa là 


s? = p —my), k=1,2 (22.4) 


Chú ú rằng các within-class variance 6 đâu không được lay trung binh như phương sai thông 
thường. Diéu này được ly giải là tầm quan trọng của mỗi within-class variance nên tỉ lệ thuận 
uới số lượng điểm dữ liệu trong lớp đó, túc within-class variance bằng phương sai nhân vói 
số điểm trong lớp đó. 


LDA là thuật toán đi tìm giá trị lớn nhất của hàm mục tiêu 


(mi — ma)? 
sĩ +52 


J(w) = (22.5) 
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Thông qua việc tối đa hàm mục tiêu này, ta sẽ thu được between-class variance(m, — rna)Ÿ, 


lớn và within-class variance, si + s2 nhỏ. 


Tiếp theo, chúng ta sẽ tìm biểu thức phụ thuộc giữa tử số và mẫu số trong về phải của (22.5) 
vào w. Với tử số, 
(m, — mạ)? = (w? (m, — mạ))? = w^ (m; — m;)(m, — m2)’ w=w"Sgw (226) 
"—— mmm 


SB 


Sp còn được goi là ma trận between-class covariance. Có thể nhận thấy đây là một ma 
trận đối xứng nửa xác định dương. Với mẫu số, 


s + s= 2 y (w (Xn — m,))° 


k=1 neCx 


=w" 25 »3 (x, — Mp) (Xx, — Mp)! w = w'Syw (22.7) 


k=1 n€Cy 


Sw 


Sw còn được gọi là ma trận within-class covariance. Dây cũng là một ma trận đối xứng 
nửa xác định dương vì nó là tổng của hai ma trận đối xứng nửa xác định dương”. 


Như vậy, bài toán tối ưu cho LDA trở thành 


w†TS„w 
w = arg max 


————— 22. 
w WwTSww 2) 


22.2.3 Nghiém cua bai toán tói uu 


Nghiệm w của (22.8) sẽ là nghiệm của phương trình dao ham ham mục tiêu bằng 0. Sử dụng 
quy tắc chuỗi cho đạo hàm hàm nhiều biến và công thức V„wAw = 2Aw nếu A là một 
ma trận đối xứng, ta thu được 


1 
Vw (w) = TE yw (2S¿w(w”Syyw) — 2w’Spw' Syww) =0 (22.9) 
w†Spw 
> Si„Spw = J(w)w (22.11) 


Lưu ý: Trong (22.11), ta đã giả sử rằng ma trận Sy là khả nghịch. Điều này không luôn 
luôn đúng, nhung có một kỹ thuật nhỏ là xấp xỉ Sự; bởi Sw = Sw + AI với A là một số thực 
dương nhỏ. Ma trận mới này là khả nghịch vì trị riêng nhỏ nhất của nó bằng với trị riêng 
nhỏ nhất của Sw cộng với A tức không nhỏ hơn A > 0. Điều này được suy ra từ việc Sw 


? Trong (22.6) và (22.7), chúng ta đã sử dung đẳng thức (ab)? = (aTb)(aTb) = aTbbŸa với a, b là hai vectors 
cùng chiều bất kỳ. 
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là một ma trận nửa xác dinh duong. Từ đó, Sy là một ma trận xác định dương vi moi tri 
riêng của nó là không nhỏ hơn À, và vì thế, nó khả nghịch. Khi tính toán, ta có thể sử dụng 
nghịch đảo của Sy. Kỹ thuật này được sử dụng rất nhiều khi cần sử dụng nghịch đảo của 
một ma trận nửa xác định dương và chưa biết nó có thực sự là xác định dương hay không. 


Quay trở lại với đẳng thức (22.11), vì J(w) là một số vô hướng, ta suy ra w phải là một 
vector riêng của Sy/ Sg ứng với J(w). Vậy, để hàm mục tiêu là lớn nhất thì J(w) chính là 
trị riêng lớn nhất của Sy 3 p. Dau bằng xảy ra khi w là vector riêng ứng với tri riêng lớn 
nhất đó. 


Từ có thể thấy ngay rằng nếu w là nghiệm của (22.8) thì kw cũng là nghiệm với k là số 
thuc khác không bất kỳ. Vậy ta có thể chon w sao cho (m, — mạ)?w = L với L là trị riêng 
lớn nhất của Sy/Sp và cũng là giá trị tối ưu của J(w). Khi đó, thay định nghĩa của Sg ở 
(22.6) vào (22.11) ta có: 


Lw = Si (my, = m») (m, = mạ)Ïw = LS (mi = mạ) (22.12) 
"¬—_— 
L 


Điều này nghĩa là ta có thể chọn 

w = aS (m: — mạ) (22.13) 
với œ # 0 bất kỳ. Biểu thức (22.13) còn được biết như là Fisher’s linear discriminant, được 
đặt theo tên nhà khoa hoc Ronald Fisher (https: // goo.gl/ eUk1 KS). 
22.3 LDA cho bài toán phân lớp nhiều lớp 


22.3.1 Xây dựng hàm mục tiêu 


Trong mục này, chúng ta sẽ xem xét trường hợp tổng quát của LDA, được gọi là multi-class 
LDA, khi có nhiều hơn hai lớp dữ lieu, C > 2. Giả sử rằng chiều của dit lieu D lớn hơn C. 
Giả sử rằng chiều mà chúng ta muốn giảm về là D' < D và dữ liệu mới ứng với mỗi điểm 
dit liệu x là: 

z=W"x (22.14) 


với W € RP*P', Một vài ký hiệu: 


e X,,Z, = WTX, lần lượt là ma trận dữ liệu của lớp thứ k trong không gian ban đầu và 
không gian mới với số chiều nhỏ hơn. Mỗi cột tương ứng với một điểm dữ liệu. 


1 " 
e m= 7 p» x € RP là vector ky vọng của lớp thứ k trong không gian ban đầu. 


e == p Zn = W'm, € R” là vector ky vong của lớp thứ k trong không gian mới. 


e mc RP là vector trung binh của toàn bó dữ liệu trong không gian ban đầu và e e RP 
là vector trung binh trong khóng gian mói. 
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Hinh 22.3: LDA cho multi-class 
classification problem. Mục dích 
\|Zc — Ecl? cũng là su khác nhau giữa các 
thành phán trong mót lóp (within- 
class) là nhỏ và sự khác nhau giữa 
các lớp là lớn. Các điểm dữ liệu 
có màu khác nhau thể hiện các lớp 
khác nhau. 


|Z; - Ej ll? 


Goal: 


|| Zi. — Ex||? (within-class) small. 


E, — E||? (between-class) large. 


Một trong những cách xây dựng hàm muc tiêu cho multi-class LDA được minh hoa trong 
Hinh 22.3. Độ phân tán của một tập hợp dữ liệu có thé được coi nhu tổng binh phương 
khoảng cách từ mỗi điểm tới vector kỳ vọng của chúng. Nếu tất cả các điểm đều gần vector 
trung bình của chúng thì độ phân tán của tập dữ liệu đó được coi là nhỏ. Ngược lại, nếu 
tổng này là lớn, tức trung bình các điểm đều xa trung tâm, tập hợp này có thể được coi 
là có độ phân tán cao. Dựa vào nhận xét này, ta có thể xây dựng các đại lượng within- và 
between-class variance như dưới đây. 


Within-class variance của lớp thứ k có thể được tính như sau: 


ơi = Y Jizn — exl? = [Ze — Erl? = IW? (X — My) (22.15) 
nECk 
= trace (W"(X, — My) (Xp — M)” W) (22.16) 


Với E; một ma trận có các cột giống hệt nhau và bằng với vector trung bình ez. Có thé 
nhận thấy E; = WTM, với Mỹ là ma tràn có các cột giống hệt nhau và bằng với vector 
trung bình m; trong không gian ban đầu. Vậy đại lượng đo within-class trong multi-class 
LDA có thể được đo bằng: 
C C 
Sw = > pe ` trace (W7 (X, — My) (Xy — My) W) = trace (W7 Sw W) (22.17) 


k=1 k=1 


C C 
Sw => ||X¿ — Mall? = À2 Lx. — ma) (xn — mẹ)” (22.18) 


k=1 neCx 


Ma trận Sy này là một ma trận nửa xác định dương. 


Between-class variance lớn có thể đạt được nếu tất cả các điểm trong không gian mới đều 
xa vector trung bình chung e. Việc này cũng có thể đạt được nếu các vector trung bình của 
mỗi lớp xa các vector trung bình chung (trong không gian mới). Vậy ta có thể định nghĩa 
đại lượng between-class như sau: 
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C C 
sp = Y Nilles — ell? =  _ [Es — Ell? (22.19) 
k=1 kei 


Ta lấy N, làm trọng số vì có thé có những lớp có nhiều phan tử so với các lớp còn lại. Chú 
ý rằng ma trận E có thé có số cột linh động, phụ thuộc vào số cột của ma trận E, mà nó đi 
cùng (và bằng N;). 

Lập luận tương tự như (22.17), bạn đọc có thể chứng minh được: 


Spg = trace (W“S¿W) (22.20) 


N¿(m, — m)(m; — m)” (22.21) 


E 
| 
M 
E 
| 
3 
ES 
| 
3 
" 
IMa 


và số cột của ma tràn M cũng linh động theo só cột của Mz. Ma tràn này là tổng của các 
ma trận đối xứng nửa xác định dương, nên nó là một ma trận đối xứng nửa xác định dương. 


22.3.2 Hàm mục tiêu cho multi-class LDA 


Với cách định nghĩa và ý tưởng về within-class variance nhỏ và between-class variance lớn 
như trên, ta có thể xây dựng bài toán tối ưu 


trace(W*SyW 
W = arg max J(W) = arg max mace BW) 


22.22 
w trace(W7SyjW) ( ) 


Nghiệm cũng được tìm bằng cách giải phương trình đạo hàm hàm mục tiêu bằng 0. Nhắc 
lại về đạo hàm của hàm trace theo ma trận: 


Vwtrace(W“AW) = 2AW (22.23) 


với A € RP*P là một ma trận đối xứng. 


Với cách tính tương tự như (22.9) - (22.11), ta có: 


2 (S;Wtracc(WTSW) — trace(WT Sg W)SwW) 
(trace(WTS,, W))? 
e Sy BW = J(W)W (22.25) 


VwJ(W) = 


—0 (22.24) 


Từ đó suy ra mỗi cột của W là một vector riêng của SS p Úng vói tri riéng lón nhát cúa 
ma trận này. Nhận thấy rằng các cột của W cần phải độc lập tuyến tính. Vì nếu không, dữ 
liệu trong không gian mới z = W?x sẽ phụ thuộc tuyến tính và có thể tiếp tục được giám 
số chiều. Vậy các cột của W là các vector độc lập tuyến tính ứng với trị riêng cao nhất của 
Si Sp. Câu hỏi đặt ra là: Có nhiều nhất bao nhiêu vector riêng độc lập tuyến tính ứng với 
trị riêng lớn nhất của S% Spg? Số lượng này chính là số chiều / của dữ liệu mới. 
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Số lượng lớn nhất các vector riêng độc lập tuyến tính ứng với một tri riêng của một ma trận 
không thể lớn hơn rank của ma trận đó. Dưới đây là một bổ đề quan trọng. 


Bổ đề: 
rank(Sp) <Œ — 1 (22.26) 
Chứng minh”: 
Viết lại 22.21 dưới dạng 
Sg = PP? (22.27) 


với P € RP*? mà cột thú k cuả nó là p, = V//N,(m; — m). 
Hon nữa, cột cuối cùng là một tó hợp tuyến tính của các cột còn lại: 


C po 
N 

Mo — m = mẹ — € = y — m) (22.28) 

Như vậy ma trân P có nhiều nhất C — 1 cột độc lập tuyến tính, vậy nên rank? của nó không 

vượt quá C — 1. Cuối cùng, Sg là tích của hai ma trận với rank không quá C — 1, nên 

rank(Sg) không vượt quá C — 1. 


Từ đó ra có rank (SẸ Sg) € rankSg < C — 1. Vậy só chiều của không gian mới là một só 
khóng lón hon C — 1. 


Tóm lai, nghiém cúa bài toán multi-class LDA là các vector riéng dóc làp tuyén tính úng vói 
trị riêng cao nhất của Sy Sp. 


Lưu ý: Có nhiều cách khác nhau để xây dựng hàm mục tiêu cho multi-class LDA dựa 
trên việc định nghĩa within-class variance nhỏ và between-class variance lớn. Chúng ta đang 
sử dụng hàm trace để đong đếm hai đại lượng này. Một ví dụ khác về hàm tối ưu là 
J(W) = trace(sự/sg) = trace((«WSw WT) 1 (WSgWT)) [Fuk13]. Hàm số này cũng dat giá 
trị lớn nhất khi W là tập hợp của D’ vector riêng ứng với các trị riêng lớn nhất của Sy Sp. 
Có một điểm chung giữa các cách tiếp cận này là chiều của không gian mới sẽ không vượt 
quá C — 1. 


22.4 Ví dụ trên Python 


Trong mục này, chúng ta sé minh hoạ LDA cho bài toán phân lớp nhị phân qua một ví dụ 
đơn giản với dữ liệu trong không gian hai chiều. 


Dữ liệu của hai lớp được tao như sau: 


3 Việc chứng minh này không thuc sự quan trọng, chi phù hợp với những bạn muốn hiểu sâu. 
^ Các tính chất của rank có thể được tìm thấy trong Mục 1.8. 
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from __future__ import division, print function, unicode literals 
import numpy as np 

import matplotlib.pyplot as plt 

from matplotlib.backends.backend pdf import PdfPages 
np.random.seed(22) 


means = [[0, 5], [5, 0]] 

cov0 = [[4, 3], I3, 4]] 

covl = [[3, 1], [1, 1]] 

NO, N1 = 50, 40 

N = NO + N1 

X0 = np.random.multivariate_normal (means[0], cov0, NO) # each row is a data point 
X1 = np.random.multivariate normal(means[1], covl, N1) 


Các điểm dữ liệu của hai lớp được minh hoạ bởi các màu khác nhau trên Hình 22.4. 


Tiếp theo, chúng ta đi tính các ma trận within-class và between-class covariance: 


# Build S B 
m0 = np.mean(X0.T, axis = 1, keepdims = True) 
ml = np.mean(X1.T, axis = 1, keepdims = True) 


a = (m0 - ml) 
S B = a.dot (a.T) 


# Build S W 
A = X0.T - np.tile(m0, (1, NO)) 
B = X1.T = np.tile(ml, (1, N1)) 


S W = A.dot (A. T) + B.dot (B.T) 


Nghiém cúa bài toán là vector riéng úng vói tri riéng lón nhát cúa Sy We: 


_, W = np.linalg.eig(np.linalg.inv(S W).dot(S B)) 
w = W[:,0] 

print (’w = ', w) 

Két qua: 

w= [ 0.75091074 -0.66040371] 


Đường thang có phương w được minh hoa bởi đường màu lục trên Hình 22.4. Ta thấy rằng 
nghiệm này hợp lý với dữ liệu của bài toán. 


Để kiểm chứng độ chính xác của nghiệm tìm được, ta cùng so sánh nó với nghiệm tìm được 
bởi thư viện sklearn. 
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Hinh 22.4: Ví du minh hoa vé LDA 
trong không gian hai chiều. Đường 


la,” —— Solution by LDA : : 
m class 1 thang màu lục là đường thang ma 
$ class 2 dữ liệu sẽ được chiêu lên. Ta có 
thể thây rằng, nêu chiêu lên đường 
$6: KK tháng này, dữ liệu của hai, lớp sẽ 
M" nám vé hai phía cüa mót diém trén 


đường thẳng đó. 


from sklearn.discriminant_analysis import LinearDiscriminantAnalysis 
X = np.concatenate((X0, X1)) 

y = np.array([0]*NO + [1]*N1) 

clf = LinearDiscriminantAnalysis() 

clf.fit(X, y) 


print('w sklearn = ', clf.coef [0]/np.linalg.norm(clf.coef )) # normalize 


w Sklearn = [ 0.75091074 -0.66040371] 


Ta tháy ráng nghiém tim theo cóng thüc và nghiém tim theo thu vién là nhu nhau. 


Một ví du khác so sánh PCA và LDA có thể được tim thấy tai Comparison of LDA and 
PCA 2D projection of Iris dataset (https: //goo.gl/tWjAEs). 


22.5 Thào luàn 


e LDA là một phuong pháp giám chiều dữ liệu có sử dung thông tin vé label của dữ liệu. 
Vi vày, LDA là mót thuát toán supervised. 


e Y tưởng cơ bản của LDA là tim một không gian mới với số chiều nhỏ hơn không gian 
ban đầu sao cho hình chiếu của các điểm trong cùng lớp lên không gian mới này là gần 
nhau trong khi hình chiếu của các điểm của các lớp khác nhau là khác nhau. 


e Trong PCA, số chiều của không gian mới có thể là bát kỳ số nào không lớn hơn số chiều 
và số điểm của dữ liệu. Trong LDA, với bài toán có C classes, số chiều của không gian 
mới chỉ có thể không vượt quá C — 1. 


e Với bài toán có hai lớp, từ Hình 22.1 ta có thể thấy rằng hai lớp là linearly separable nếu 
và chỉ nếu tồn tại một đường thắng và một điểm trên đường thang đó (điểm mùa lục) 
sao cho dữ liệu hình chiếu trên đường thang của hai lớp nằm về hai phía khác nhau của 
điểm đó. 
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e LDA hoạt động rất tốt nếu các lớp là linearly separable. Chất lượng mô hình giảm đi rõ 
rệt nếu các classes là không linearly separable. Điều này dễ hiểu vì khi đó, chiếu dữ liệu 
lên phương nào thì cũng bị chồng lần, và việc tách biệt không thể thực hiện được như ở 
không gian ban đầu. 


e Mặc dù có han chế, ý tưởng vé small within-class variance và big within-class variance 
còn được gọi là Fisher’s optimization criterion, được sử dụng rất nhiều trong các thuật 
toán phân lớp [VM17, VM16, YZFZ11]. 
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Convex optimization- TôI ưu lôi 


Chương 23 WI 


Tập lõi và hàm lôi 


23.1 Giới thiệu 


Các bài toán tối uu đã thảo luận trong cuốn sách này đều là các bài toán tối uu không ràng 
buộc (unconstrained optimization problems), tức tối uu hàm mát mát mà không có điều kiện 
ràng buộc (constraints) nào về nghiệm. Tuy nhiên, không chỉ trong Machine Learning, trên 
thực tế các bài toán tối ưu thường có rất nhiều ràng buộc khác nhau. 


Trong toán tối uu, một bài toán có ràng buộc thường được viết dưới dạng 
X = arg min fo(x) 
subject to: (x) <0, i=1,2,...,m 
h;(x)=0, j=1,2,...,p 


Trong đó, vector x = [1,,t2,..., £n]? được gọi là bién tối ưu (optimization variable). Ham só 
fo: IR" > R được gọi là hàm mục tiêu (objective function, các hàm mục tiêu trong Machine 
Learning thường được gọi là hàm mát mát). Các hàm só ƒ;, h; : R” > R, i = 1,2,..., m; j = 
1,2,...,p được gọi là các hàm ràng buộc (hoặc đơn giản là ràng buộc - constraints). Tập hợp 
các điểm x thỏa mãn các ràng buộc được goi là feasible set. Mỗi điểm trong feasible set được 
gọi là một feasible point, các điểm không trong feasible set được gọi là các infeasible point. 


Chú ý: 
e Nếu bài toán là tìm giá trị lớn nhất thay vì nhỏ nhất của hàm mục tiêu, ta chỉ cần đổi 


dấu của fo(x). 


e Nếu ràng buộc là lớn hơn hoặc bằng, tức ƒ,(x) > bj, ta chỉ cần doi dau của ràng buộc là 
sẽ có điều kiện nhó hơn hoặc bằng —f;(x) < —bj. 


e Các ràng buộc cũng có thé là lớn hơn hoặc nhỏ hơn. 
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h O 


Example of convex sets 


Hình 23.1: Các ví du về tập lồi. 


e Nếu ràng buộc là bằng nhau, tức h;(x) = 0, ta có thể viết nó dưới dang hai bất đẳng thức 
h;(x) < 0 và —h;(x) < 0. Trong một vài tài liệu, người ta bỏ các phương trình ràng buộc 


e Trong chương này, x, y được dùng chủ yếu để ký hiệu các biến số, không phải là dữ liệu 
như trong các chương trước. Biến tối ưu chính là biến được ghi dưới dấu arg min. Khi 
viết một bài toán tối ưu, ta cần chỉ rõ biến nào cần được tối ưu, biến nào là cố định. 


Các bài toán tối ưu, nhìn chung không có cách giải tổng quát, thậm chí có rất nhiều bài chưa 
có lời giải hiểu quả. Hầu hết các phương pháp tìm nghiệm không chứng minh được nghiệm 
tìm được có phải là tức đúng là điểm làm cho hàm số đạt giá trị nhỏ nhất hay lớn nhất 
hay không (global optimal). Thay vào đó, nghiệm thường là các điểm cực tri (local optimal). 
Trong nhiều trường hợp, các nghiệm local optimal cũng mang lại những kết quả tốt. 


Để bắt đầu nghiên cứu về tối ưu, chúng ta cần biết tới một mảng rất quan trọng trong đó, 
có tên là tői ưu loi (convex optimization), trong đó hàm muc tiêu là một ham lôi (convex 
function), feasible set là một tập loi (convex set). Những tính chất đặc biệt vé local optimal 
và global optimal của một hàm lôi khiến tối ưu lồi trở nén cuc kỳ quan trọng. Trong chương 
nay, chúng ta sẽ thảo luận định nghĩa và các tính chất cơ bản của tap loi và hàm loi. Bài 
toán tối uu lồi (convex optimization problems) sẽ được dé cập trong chương tiếp theo. 


23.2 Tập lồi — Convex sets 
23.2.1 Định nghĩa 


Ban doc có thé đã biết đến khái niệm da giác lôi. Loi, hiểu đơn giản, là phinh ra ngoài, hoặc 
nhó ra ngoài. Trong toán học, bằng phẳng cũng được coi là lồi. 


Định nghĩa không chính thức của tập lồi: Một tập hợp được gọi là tâp loi nếu moi 
điểm trên đoạn thắng nối hai điểm bát kỳ trong tập hợp hợp đó đều thuộc tập hợp đó. 


Một vài ví dụ về tập lồi được cho trong Hình 23.1. Các hình với đường biên màu đen thể 
hiện việc biên cũng thuộc vào hình đó, biên màu trắng thể hiện việc biên đó không nằm 
trong hình. Đường thang hoặc đoạn thang cũng là một tập lồi theo định nghĩa phía trên. 
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Examples of nonconvex sets 


Hinh 23.2: Các ví dụ vé tập không lỗi. 
Một vài ví dụ thực tế: 


e Giả sử có một căn phòng có dạng hình lồi, nếu ta đặt một bóng đèn đủ sáng ở bất kỳ vị 
trí nào trên trần nhà, mọi điểm trong căn phòng đều được chiếu sáng. 


e Nếu một đất nước có bản đồ dang một hình lồi thì đoạn thắng nối hai thành phó bất kỳ 
trong đất nước đó nằm trọn vẹn trong nước đó. Một cách lý tưởng, mọi đường bay trong 
đất nước đều được tối ưu vì chi phí bay thẳng ít hơn chi phí bay đường vòng hoặc qua 
không phận của nước khác. Bản đồ Việt Nam không có dạng lồi vì đường thắng nối sân 
bay Nội Bài va Tan Sơn Nhất di qua dia phận Campuchia. 


Hình 23.2 minh hoạ một vài ví dụ về các tập không phải là tập lồi, nói gọn là tập không lôi 
(nonconuez set). Ba hình đầu tiên không phải là lồi vì các đường nét đứt chứa nhiều điểm 
không nằm trong các tập đó. Hình thứ tư, hình vuông không có biên ở đáy, không phải là 
một tâp lôi vì đoạn thang nối hai điểm ở đáy có thé chứa phan ở giữa không thuộc tập dang 
xét (nếu không có biên thì thình vuông van là một tâp lói, nhung biên nýa vòi như ví du 
này thì hãy chú ý). Một đường cong bát kỳ cũng không phải là tâp Idi vì dễ thấy đường 
thắng nối hai điểm bất kỳ không thuộc đường cong đó. 


Dé mô tả một táp lói dưới dang toán học, ta sử dung 


Định nghĩa 23.1: Convex set- Tập hợp lồi 


Một tập hợp C được gọi là một tâp lói nếu với hai điểm bất kỳ x,,x € C, điểm 
xo = Ox, + (1 — 0)x3 cũng nằm trong C với bát ky 0 < 0 < 1. 


Có thé thấy rằng, tập hợp các điểm có dang (0x, + (1 — 0)x>) chính là đoạn thẳng nói hai 
điểm x, và Xp. 


Với các định nghĩa này thi toàn bó không gian là một tập lôi vì đoạn tháng nào cũng nằm 
trong không gian đó. Tập rỗng cũng có thé coi là một trường hợp đặc biệt của tâp lồi. 


Machine Learning cơ bản https: // machinelearningcoban. com 


285 CHƯƠNG 23. TẬP LÓI VÀ HÀM LÓI 


23.2.2 Các ví du vé tàp lói 


Siéu mát phàng và nita khóng gian 


Dinh nghĩa 23.2: Hyerplane-Siéu mặt phẳng 


Một siêu mặt phẳng, hay siêu phẳng (hyperplane) trong không gian n chiều là tập hợp 
các điểm thỏa mãn phương trình 


đ1#1 + d3X9 +++: + anin = afx = b (23.1) 


với b, aj, 4 = 1,2,...,n là các số thực. 


Hyperplanes là các tâp loi. Điều này có thể được suy ra từ Định nghĩa 23.1. Thật vậy, nếu 
a s = a’ x» —b 
thì với 0 < 0 < 1 bát ky, ta có a? xg = aT (0x4 + (1 — Ø)xạ) = 0b+ (1 — 0)b = b 
Dinh nghĩa 23.3: Halfspace- NuUa không gian 


Một nửa không gian (halfspace) trong không gian n chiều là tập hợp các điểm thỏa 
mãn bất phương trình 


at bon + bos = alx < b 


với b, a;i = 1,2,...,n là các số thực. 


Các halfspace cũng là các tập lồi, bạn đọc có thể dễ dàng nhận thấy theo Định nghĩa 23.1 
và cách chứng minh tương tự như trên. 


Norm balls 
Định nghĩa 23.4: Norm ball 


Cho một tâm x, và một bán kính r và khoảng cách giữa các điểm được xác định bởi 
một norm. Norm ball tương ứng là tập hợp các điểm thoả mãn 


B(xa r) = {x | Ix ^ xells € r} = {xe + ru | [ulla € 1} 


Khi norm là l norm, ta có norm ball là một hình tròn trong không gian hai chiều, hình 
cầu trong không gian ba chiều, hoặc siêu cầu trong các không gian nhiều chiều. Khi dùng l2 
norm, norm ball được gọi là Euclidean norm. 


Norm balls là các tàp lói. Dé chúng minh viéc này, ta düng Dinh nghía 23.1 và bát dàng 
thức tam giác của norms. Với x;,x3 bát ky thuộc B(x,,r) và 0 € 0 < 1 bát kỳ, xét 
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Cp Ton] (erry? < 1) 

1 ji 
1 E! 1 
> > 

1 -í 

p=3 p=: 

ET x1 P 21 Ti 
1 1 -1 1 4 1 4 1 4 1 
> > > > > 

-1 d, -1 -1 -1 

p=1 P=s p=2 p=4 p=00 


(b) p > 1: convex sets 
Hình 23.3: Hình dạng của các tập hợp bị chặn bởi (a) các pseudo-norm và (b) các norm. 


Xy = Ox, + (1 — Ø)xa, ta có 


[pco — xoll = Gr — xe) + (1 — 8) — x2) | 
< 8|x; — x,|| + (1 — Ø)||x: — x,|| < 0r +(1— O)r =r 


Vậy xạ € B(%x,,r). 
Hinh 23.3 minh họa tập hợp các điểm có tọa độ (x, y) trong không gian hai chiều thỏa mãn: 
(jc? + |y)" <1 (23.2) 


với hàng trên là các tập với 0 < p « 1, là các pseudo-norm, và hàng dưới tương ứng với 
p> 1, là các norm thực sự. Chúng ta có thể thấy rằng khi p nhỏ gần bằng 0, tập hợp các 
điểm thỏa mãn bát dàng thức (23.2) gần như nằm trên các trục tọa độ và bị chặn trong đoạn 
[0,1]. Quan sát này sẽ giúp ích cho các bạn khi làm việc với pseudo-norm 0. Khi p — oo, 
các tập hợp hội tụ về hình vuông. Dây cũng là một trong các lý do vì sao cần có điều kiện 
p > 1 khi định nghĩa £, norm. 


23.2.3 Giao của các tập lồi 


Giao của các tập lồi là một tập lồi. Việc này có thể nhận nhận ra trong Hình 23.4a. Giao 
của hai trong ba hoặc cả ba tập lồi đều là các tập lồi. Việc này có thể được chứng minh theo 
Dinh nghĩa 23.1. Nếu x4, x? thuộc vào giao của các tập lồi, tức thuộc tất cả các tập lồi đã 
cho, thi (0x, + (1 — 0)x3) cũng thuộc vào tất cả các tập lồi, tức thuộc vào giao của chúng. 
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(a) (b) 
Hinh 23.4: (a) Giao của các tập lỗi là một tập lỗi. (b) Giao của các hyperplanes và halfspace là 


một tập lỗi và được gọi là polyhedron (số nhiều là polyhedra). 


Từ đó suy ra giao của các halfspaces và các hyperplanes cũng là một tập lồi. Chúng là các 
đa giác lồi trong không gian hai chiều và đa diện lồi trong không gian ba chiều. Trong không 
gian nhiều chiều, giao của các halfspaces và hyperplanes được gọi là polyhedra. Giả sử có 
m halfspace và p hyperplanes. Mỗi một halfspace có thé được viết dưới dạng aTx < bj, Vi = 
1,2,...,m. Mỗi một hyperplane có thé được viết dưới dạng cZx = d;, Vi = 1,2,...,p. 


Vậy nếu đặt A = [ai,as,...,am|, b = [hi,ba,...,bm|f,C = [c1,C2,..., Cp] và d = 
di, da,..., dp], ta có thể viết polyhedra dưới dạng tập hợp các điểm x thỏa mãn 


A’x <b, C’x=d 


trong đó < là element-wise, tức mỗi phan tử trong về trái nhỏ hơn hoặc bằng phan tử tương 
ứng trong về phải. 


23.2.4 Tổ hợp lồi và bao lồi 


Định nghĩa 23.5: Tổ hợp lói-Convex combination 


P 2 š a Az àe . . 2 ya 22 4 
Một điểm được gọi là tó hợp lôi (convex combination) của các điểm X1,X2,..., x; nêu 


nó có thể được viết dưới dạng 


x =01x1 + 02X2 + - - - +0xXz, với Oi -+0s+--- +0y = 1 vad; > 0,V¿ = 1,2,...,k 


Bao lồi (convex hull) của một tập hợp bat kỳ là tập hợp tất cả các điểm là convex 
combination của tập hợp đó. Convex hull của một tập bát kỳ là một convex set. Convex hull 
của một conver set là chính nó. Conver hull của một tập hợp chính là conver set nhỏ nhất 
chứa tập hợp đó. Khái niệm nhỏ nhất được hiểu là mọi tập lồi chứa toàn bộ một tập hợp 
bất kỳ đều chứa convex hull của tập hợp đó. 


Nhắc lại về khái niệm linear separable đã sử dụng nhiều trong cuốn sách. Hai tập hợp được 
goi là linearly separable nếu các convez hull của chúng không có điểm chung. 
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Hinh 23.5: Trái: Giao của các tập lỗi là một tập Idi. Phải: giao của các hyperplanes và halfspace 
là một tập lỗi và được gọi là polyhedron (sô nhiều là polyhedra). 


Trong Hình 23.5, convex hull của các điểm màu xanh là vùng màu xám bao bởi các đa giác 
lồi. Ó Hình 23.5 bên phải phải, convex hull của đa giác màu xanh là hợp của nó và phần 
tam giác màu xám. 


Dinh lý 23.1: Siêu phẳng phân chia-Separating hyperplane theorem 


Hai tập loi không rỗng C, D là không giao nhau nếu và chỉ nêu tồn tại một vector a và 
một số b sao cho 
ax«bVxeC, afx>bVxe'? 


T 


Tập hợp tất cá các điểm x thỏa mãn afx = b chính là một hyperplane. Hyperplane này 


được gọi là separating hyperplane. 


Ngoài ra, còn nhiều tính chất thú vị của các tập lồi và các phép toán bảo toàn chính chất 
lồi của một tập hợp, bạn đọc được khuyến khích đọc thêm Chương 2 của cuốn Convex 
Optimization [B V04]. 


23.3 Convex functions 


23.3.1 Dinh nghia 


Trước hết ta xem xét các hàm một biến với đồ thị của nó là một đường trong một mặt 
phẳng. Một hàm số được gọi là nếu tập xác định của nó là một tập lồi và nếu ta 
nối hai điểm bát kỳ trên đồ thi ham số đó, ta được một đoạn thang nằm về phía trên hoặc 
nằm trên đồ thị (xem Hinh 23.6). Tập rác dinh (domain) của một hàm số ƒ(.) thường được 
ký hiệu là domf. 
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Hình 23.6: Dinh nghĩa hàm lồi. 
Diễn đạt bằng lời, một hàm só là 
lồi nêu đoạn tháng nói 2 điểm bát 
kỳ trên dó thị của nó không nằm 
dưới đồ thị đó. 


0f(x) + (1 — 6)f(y) 2 ƒ(0x+ (1 — 9)y) 


Dinh nghia 23.6: Convex function-Hàm lói 


Một hàm só f :] R được gọi là một hàm loi nêu dom là một tap lôi, và: 


f(0x + (1— 0)y) <0f(x) + (1-0)f(y) 


với moi x, y € dom/,0 «€ 0 < 1. 


Điều kiện dom f là một tâp lói là rất quan trọng. Nếu không có điều kiện này, tồn tai những 
0 mà Øxị + (1 — @)x không thuộc domf, và sẽ không định nghĩa được f(0x + (1 — 0)y). 


Một hàm số f được gọi là concave (tam dịch là lóm) nếu — f là conver. Một ham só có thể 
không thuộc hai loại trên. Các hàm tuyến tính vừa convez, vừa concave. 


Định nghĩa 23.7: Strictly convex function-Hàm lồi chặt 


Một hàm số f : R” — R được gọi là lôi chát (strictly conver) néu domf là một tập 
lồi, và 


ƒ(0x+ (1— 0)y) < 0f(x) + (1— 0)f(y) 


với moi x, y € domf,x # y,0 « 0 < 1 (chỉ khác với hàm convex ở dấu nhỏ hon). 


Tương tự với định nghĩa strictly concave. 


Nếu một hàm số là strictly conver và có điểm cực trị, thì điểm cực trị đó là duy 
nhất và cũng là global minimum. 


23.3.2 Các tính chất cơ bản 


e Nếu f(x) là conver thi aƒ(x) là conver néu a > 0 và là concave nêu a < 0. Điều này có 
thể suy ra trực tiếp từ định nghĩa. 


e Tổng của hai hàm Idi là một hàm lôi, với tập xác dinh là giao của hai tập xác định của 
hai hàm dá cho (nhắc lại rằng giao của hai tập lồi là một tập lồi) 
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Hinh 23.7: Ví du vé Pointwise maxi- 
mum. Maximum cüa các hàm lói là mót 
hàm lôi. 


f(x) = max{fi(x), fo(x)} 


f(x) 


e Pointwise maximum và supremum: Nếu các hàm só fi, ƒ›,..., fm là convex thì: 


f(x) = max{ fi(x), fa(x).. . .. fm(x)} 


cũng là conver trên tập xác định là giao của tất cà các tập xác định của các hàm só trên. 
Hàm max phía trên cũng có thé thay thế bằng hàm supremum!. Tính chất này có thể được 
chứng minh theo Dinh nghĩa 23.6. Hình 23.7 minh hoa tính chất này. Các hàm fi(x), f(x) 
là các hàm lồi. Đường màu xanh chính là đồ thị của ham só f(x) = max(fi(x), fo(x)). 
Mọi đoạn thẳng nói hai điểm bát kì trên đường màu xanh đều không nằm dưới nó. 


23.3.3 Ví dụ 
Các hàm một bién 
Ví du về các convez functions một bién: 


e Hàm y = az 4- b là một hàm loi vì đoạn thang nối hai điểm bất kỳ trên đường thang đó 
đều không nằm phía dưới đường thang đó. 


e Hàm y = e® với a € R bát ky. 


e Hàm y = z^ trên tập các số thuc dương và a > 1 hoặc a < 0. 

e Hàm negative entropy y = z log x trên tập các só thực dương. 

Hinh 23.8 minh hoa dó thi cúa mót só hàm convex thuóng gáp vói bién mót chiéu. 
Ví du vé các concave functions mót bién: 

e Hàm y= az +b là một concave function vi — là một. convex function. 

e Hàm y = z^ trên tập số dương và 0 € a < 1. 


e Hàm logarithm y = log(z) trên tập các số duong. 


Hinh 23.9 minh hoa dó thi cúa mót vài hàm só concave. 


! Xem Infimum and Supremum — Wikipedia (https:// goo.gl/ AsX40M) 
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y=ax+b y = || y=" y=e 


Hinh 23.8: Vi du vé cdc ham convex mét bién. 


A 


y=ar+b yes y = 2log(x) y=3+2 ¡fx 
y=3 
Hình 23.9: Ví du vé các hàm concave một bién. 


Affine functions 

Các hàm số dang f(x) = aTfx + b vừa là convex, vừa là concave. 

Khi biến là một ma trận X, các hàm affine được định nghĩa có dạng: 
f(X) = trace(ATX)+b 


trong đó, A là một ma trận có cùng kích thước như X để đảm bảo phép nhân ma trận thực 
hiện được và kết quả là một ma trận vuông. 


Dạng toàn phương — Quadratic form 


Hàm bậc hai một biến có dang f(x) = ax? + bx + c là convex nếu a > 0, là concave nếu 
a <0. 


Với bién là một vector x = [#i,#a,..., „|, một dang toàn phuong (quadratic form) là một 
hàm số có dạng 
f(x) 2 x Ax - b'x +c 


với A, b là các ma trận và vector với chiều phù hop và A thường là một ma trận đối xứng. 


Nếu A là một ma trận (nửa) xác định dương thì f(x) là một hàm convex. Nếu A là một ma 
trận (nửa) xác định âm, f(x) là một concave function. 
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15 


2.0 -2.0 


(a) Norm 1 (b) Norm 2 


Hinh 23.10: Ví du vé mát cüa các norm hai bién. 


Nhác lai hàm mát mát trong linear regression có dang 


1 1 
L(w) = gw lY — Xwll§ = 5N — X^ w) (y — X^ w) 
l T T l TT l r 
= —w XX w--—yX — 
IN” wg c og 
vi XX” là một ma trận nửa xác dinh dương, hàm mát mát của linear regression chính là 
mót convex function. 


Norms 


Moi hàm só bát ky thỏa mãn ba điều kiện của norm đều là convex. Việc này có thé được 
truc tióp suy ra tú bát dàng thúc tam giác cúa mót norm. 


Hình 23.10 minh hoa hai ví du về bé mặt của /¡ norm và /? norm trong không gian hai chiều 
(chiều thứ ba là giá trị của hàm số). Nhận thấy rằng các bề mặt này đều có một dáy duy 
nhất tương ứng với gốc tọa độ (đây chính là điều kiện đầu tiên của norm). Điều này cho 
thấy nếu ta thả một hòn bi ở vị trí bất kỳ trên các bề mặt này, cuối cùng nó sé lăn về đáy. 
Nếu liên tưởng tới thuật toán gradient descent thì việc áp dụng thuật toán này vào các bài 
toán không ràng buộc với hàm mục tiêu là strictly convex (và giả sửa là khả vi, tức có dao 
hàm) sẽ cho kết quả rất tốt với learning rate phù hợp. Tính chất này khiến cho các hàm 
convex và strictly convex được đặc biệt quan tâm trong tối ưu. 
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Hinh 23.11: Ví du vé các hàm hai bién khóng convex. 


Hai hàm tiếp theo là ví du về các hàm không phải convex hay concave. Hàm thứ nhất 
f(x, y) = +? — y? là một hyperbolic, hàm thứ hai f(x,y) = 45 (x? + 2y? — 2sin(zw)). Các bề 
mặt của hai hàm này được minh hoặc trên Hinh 23.11 


23.3.4 Contours-level sets 


Để khảo sát tính lồi của các bề mặt trong không gian ba chiều, việc minh hoạ trực tiếp như 
các ví dụ trên đây có thể khó tưởng tượng hơn. Một phương pháp thường được sử dụng là 
dùng các đường đồng múc (contour hay level set). Contours là cách mô tả các mặt trong 
không gian ba chiều trong không gian hai chiều. Ỏ đó, các điểm thuộc cùng một đường tương 
ứng với các điểm làm cho hàm só có giá trị như nhau. Mỗi đường đó còn được gọi là một level 
set. Trong Hình 23.10 và Hinh 23.11, các contour của các mặt trên mặt phẳng Ory chính là 
các level set. Nói cách khác, mỗi đường level set là một vét cắt néu ta cát các bề mặt bởi 
một mặt phẳng song song với mặt phẳng Oxy. 


Khi khảo sát tính lồi của một hàm số hai biến, hoặc để tìm điểm cực trị của nó, người ta 
thường vẽ các level set thay vì vẽ các mặt trong không gian ba chiều. Hình 23.12 minh hoạ 
một vài ví dụ về các level set. Ở hàng trên, các đường level set là các đường khép kín. Khi 
các đường kín này tập trung nhỏ dần ở một điểm thì các điểm đó là các điểm cực trị. Với 
các hàm convex như trong ba ví dụ này, chỉ có một điểm cực trị và đó cũng là điểm làm cho 
hàm số đạt giá trị nhỏ nhất (global optimal). Nêu dé ý, ban sẽ thấy các đường khép kin này 
tạo thành biên của các tập lồi. Ở hàng dưới, các đường không phải khép kín. Hình 23.12d 
minh hoạ các level set của một hàm tuyến tính f(x, y) = x +, và đó là một hàm convez. 
Hình 23.12e cũng minh hoạ các level set của một hàm lồi (chúng ta sẽ sớm thấy chứng minh) 
nhung các level set là các đường không kín. Hàm này có chứa log nên tập xác định là góc 
phần tư thứ nhất tương ứng với các tọa độ dương (chú ý rằng tập hợp các điểm có tọa độ 
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f(x, y) = |z| + yl f(z,y) 2224 y? fx, y) 2 max(22? + y? — zy, |z| + 2l) 
m (b) (©) 

\ f(x, y) =alog(x) + ylog(y) f(x, y) 2 2? — y? (nonconvex) 
(d) (e) (f) 


Hinh 23.12: Ví du vé các level set. Các duóng màu càng xanh dám thi tuong üng vói các giá 
trị càng nhỏ, các đường màu càng đỏ đậm thi tương ứng các giá trị càng lón. 


dương cũng là một tâp lói vì nó là một polyhedron). Các đường không kín này nếu kết hợp 
với trục Ox, Oy sé tạo thành biên của các tập lồi. Hình 23.12f minh hoa các level set của 
một hàm hyperbolic, hàm này không phải là một hàm lồi. 


23.3.5 œ-sublevel sets 


Định nghĩa 23.8: a—sublevel set 


œ—subleuel set của một hàm số f : R” > R là một tập hợp được định nghĩa bởi 


C, = {x € dom/ | f(x) < a) 


Diễn đạt bằng lời, một a-sublevel set của một hàm só ƒ(.) là tập hợp các điểm trong tập 
xác định của f(.) mà tại đó hàm só đạt giá trị không lớn hơn a. 
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f(x, y) =F (x? +g — 10sin(V x? + y?) (nonconvex) 


Hinh 23.13: Moi alpha-sublevel sets là convex sets nhung hàm só là nonconvex. 


Quay lai vói Hinh 23.12, hàng trén, các a-sublevel sets chính là các hinh lói dugc bao bói 
các level set. Ó Hinh 23.12d, các œ-sublevel sets chính là phần nửa mặt phẳng phía dưới 
xác định bởi các đường thắng level set. Ở Hình 23.12e, các œ-sublevel set chính là các vùng 


bị giới hạn bởi các trục tọa độ và các đườnglevel set. Ở Hình 23.12f, các a-sublevel set hơi 
khó tưởng tượng mộtchút. Với a > 0, các level sets là các đường màu vàng hoặc đỏ, các 
œ-sublevel set tương ứng là phần nằm giữa các đường cùng màu. Các vùng này, có thé dé 
nhận thấy, là không lôi. 


Định lý 23.2 


Nếu một hàm số là lồi thì moi œ-sublevel set của nó là lồi. Điều gược lại chưa chắc 


đã đúng, tức nếu các œ-sublevel set của một hàm số là lói thì hàm số đó chưa chắc 
đã lôi. 


Dièu này chỉ ra rằng nếu tồn tại một giá trị a sao cho một a-sublevel set của một hàm số 
là không lôi (nonconver), thì hàm số đó là không lồi (không lồi không có nghĩa là concave, 
chú ý). Vì vậy, hàm hyperbolic không phải là một hàm lồi. Các ví dụ ở Hình 23.12, trừ 
Hình 23.12f, đều tương ứng với các hàm lồi. 


Xét một ví dụ về việc một hàm số không conver nhung mọi a-sublevel sets là conver. Ham 
f(x,y) = —e**# có mọi o-sublevel set là một nửa mặt phẳng - là convex, nhưng nó không 
phải là convez (trong trường hợp này nó là concave). 


Hinh 23.13 là một ví dụ khác về việc một hàm só có moi œ-sublevel set là loi nhưng không 
phải là một hàm lồi. Mọi a— sublevel set của hàm số này đều là các hình tròn - lồi, nhung 
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hàm só đó không phải là lĝi. Vì có thé tim được hai điểm trên mặt này sao cho đoạn thang 
nói hai điểm nằm hoàn toàn phía dưới của mặt. Chàng hạn, đoạn thang nối một điểm ở 
cánh và một điểm ở đáy không nằm hoàn toàn phía trên của mặt. 


Những hàm số có tập xác định là một tập lồi và có mọi œ-sublevel set là lồi được gọi chung 


là quasiconvex. Moi ham convex đều guasiconuez nhưng ngược lại không đúng. Dinh nghĩa 
chính thức của quasiconvex function được phát biểu như sau 


Định nghĩa 23.9: Quasiconvex function 


Một hàm số f : € — R với C là một tập con lồi của R” được gọi là quasiconver nếu 


với moi x, y € C va moi Ø € |0, 1], ta có: 


ƒ(0x+ (1 — @)y) < maxtf (x), ƒ(y)} 


Dinh nghĩa này khác với định nghĩa về conuez function một chút ở việc sử dung hàm max. 
23.3.6 Kiểm tra tính chất lồi dua vào đạo hàm. 


Có một cách để nhận biết một hàm số khả vi có là hàm lồi hay không dựa vào các đạo hàm 
bậc nhất hoặc bậc hai của nó. Tát nhiên là trong trường hợp các đạo hàm đó tồn tại. 


First-order condition 


Trước hết chúng ta định nghĩa phương trình mặt tiếp tuyến của một hàm só ƒ khả vi tại 
một điểm nằm trên đồ thị (mặt) của hàm số đó (xo, ƒ(xo). Với hàm một biến, phương trình 
tiếp tuyến tại điểm co hoành độ (zo, ƒ(zo)) là 


y = f'(xo)(z — zo) + f (vo) 


Với hàm nhiều biến, đặt V f(xo) là gradient của hàm só f tại điểm xo, phương trình mặt 
tiếp tuyến được cho bởi: 
y = V f (xo)! (x — xo) + f (xo) 


First-order condition 


Giá sử hàm só f có tập xác định là lôi, có dao hàm tại moi điểm trên tập xác dinh 
đó. Khi đó, hàm số f là lồi néu và chả nếu uới moi x, Xo trên tập xác định của hàm 
số đó, ta có: 


f(x) > ƒ(xo) + V f (xo)! (x — xo) (23.3) 


Tương tự như thé, một hàm só là stricly conver nếu dấu bằng trong (23.3) xảy ra khi và chỉ 
khi x — xo. 


Nói một cách trực quan hon, một hàm só là lồi nếu mặt tiếp tuyến tại một điểm bát kỳ trên 
đồ thị của hàm số đó không nằm trên đồ thị đó. 
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f is differentiable with convex domain 


f is convex iff f(x) > ƒ(xo) + Vf (xo)? (x — xo), Vx, xo € domf 


(a) convex function (b) nonconvex function 


Hinh 23.14: Kiém tra tính convexity dựa vào đạo hàm bậc nhất. Trái: hàm lỗi vì tiếp tuyên tại 
mọi điểm đều nằm dưới đồ thị hàm só đó, phải: hàm không lỗi. 


Hình 23.14 minh hoạ đồ thị của một hàm lồi và một hàm không lồi. Hình 23.14a mô tả một 
hàm lồi. Hình 23.14b mô tả một hàm không lồi vì đồ thị của nó vừa nằm trên, vừa nằm dưới 
đường thẳng tiếp tuyến. 


Ví dụ: Nếu ma trận đối xứng A là rác định đương thì ham số f(x) = x7 Ax là lồi. 


Chứng minh: Dao ham bậc nhất của f(x) là V f(x) = 2Ax. Vay first-order condition có thé 
viết dưới dạng (chú ý rằng A là một ma trận đối xứng): 
x Ax > 2(Axo)! (x — xo) + xi Axo 
o x Ax > 2x3 Ax Xạ AXo 
€» (x — xo)! A(x — xo) >0 


Bát dàng thúc cuói cüng là dáng dua trén dinh nghia cúa mót ma tràn zác dinh duong. Vày 
hàm só f(x) = x" Ax là một hàm lồi. 


Second-order condition 


Với hàm nhiều biến, tức bién là một vector, giả sử có chiều là d, dao hàm bậc nhất của nó 
là một vector cũng có chiều là d. Đạo hàm bậc hai của nó là một ma trận vuông có chiều là 
d x d. Dao hàm bậc hai của hàm số f(x), còn được gọi là Hessian, được ký hiệu là V? f(x). 


Second-order condition 


Một hàm sô có đạo hàm bậc hai là convex nêu domf là conver va Hessian của nó là 
một ma trận nửa xác định đương uới mọi x trong tập xác định: 


Ye Ro 2 
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Nếu Hessian của một hàm só là một ma trận rác dinh duong thì ham só đó là strictly convex. 
Tuong tu, néu Hessian là mót ma tràn zác dinh ám thi hàm só dó là strictly concave. 


Với hàm số một bién f(x), điều kiện này tuong đương với f"(x) > 0 với moi x thuộc tập 
xác định (và tập xác định là lồi). 


Ví dụ: 


e Hàm negative entropy f(x) = xlog(x) là stricly conver vì tập xác định là x > 0 là một 
tập lồi và f" (x) = 1/+ là một số dương với mọi x thuộc tập xác định. 


e Ham f(x) = x? + 5sin(z) không là hàm lồi vì dao ham bậc hai ƒ”(z) = 2 — 5sin(x) có 
thể nhận giá trỊ âm. 


e Hàm cross entropy là một hàm strictly conver. Xét vi du đơn giản với chỉ hai xác suất x 
và 1 — x với a là một hằng số thuộc đoạn [0,1] và 0 < x < 1: f(x) = —(œlog(z) + (1 — 
a) log(1 — x)) có đạo hàm bậc hai là 5 + dos là một số dương. 

e Nếu A là một ma trận xác định dương thì ƒ(x) = sx Ax là lồi vì A chính là Hessian 


của nó. 


e Xét hàm só negative entropy với hai bién: f(x,y) = xlog(x) + log() trên tập các giá tri 
dương của x và y. Hàm số này có đạo hàm bậc nhất là [log(+) + 1, log(ø) + 1]? và Hessian 

là | je 0 

0 1/y 

nên là một ma trận xác định dương. Vậy negative entropy là một hàm strictly convex. 


| là một ma tràn đường chéo với các thành phần trên đường chéo là duong 


Ngoài ra còn nhiều tính chat thú vị của các hàm lôi, các bạn được khuyến khích đọc thêm 
Chương 3 của cuốn Convex Optimization [BV04]. 


23.4 Tóm tắt 


e Machine learning và tối ưu có quan hệ mật thiết với nhau. Trong tối ưu, tối ưu lồi là quan 
trọng nhất. 


e Trong một tập lồi, mọi đoạn thang nối hai điểm bất ky trong tập đó sẽ nằm hoàn toàn 
trong tập đó. Tập hợp các giao điểm của các tập lồi là một tập lồi. 


e Một hàm số là lồi nếu đoạn thắng nối hai điểm bất kỳ trên đồ thì hàm số đó không nằm 
dưới đồ thị đó. 


e Một hàm số khả vi là lồi nếu tập xác định của nó là lồi nếu mặt tiếp tuyến tại một điểm 
bất kỳ không nằm phía trên đồ thị của hàm số đó. 


e Các norms là các hàm lồi, được sử dụng nhiều trong tối ưu. 
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Bài toán tôi ưu lôi 


24.1 Giới thiệu 
Chúng ta cùng bắt đầu bài viết bằng ba bài toán tối ưu khá gần với thực tế. 
24.1.1 Bài toán nhà xuất bản 


Bài toán: Một nhà xuất bản (NXB) nhận được đơn hàng 600 bản của cuốn “Machine 
Learning cơ bản” tới Thái Bình và 400 bản tới Hải Phòng. NXB đó có 800 cuốn ở kho Nam 
Định và 700 cuốn ở kho Hải Dương. Giá chuyển phát một cuốn sách từ Nam Định tới Thái 
Bình là 50,000 VND (50k), tới Hải Phòng là 100k. Giá chuyển phát một cuốn từ Hải Dương 
tới Thái Bình là 150k, trong khi tới Hải Phòng chỉ là 40k. Hỏi để tốn ít chi phí chuyển phát 
nhất, công ty đó nên phân phối mỗi kho chuyển bao nhiêu cuốn tới mỗi địa điểm? 


Phân tích 


Để cho đơn giản, ta xây dựng bảng số lượng chuyển sách từ nguồn tới đích như sau: 


Nguồn Dích Don giá (x10k) | Só lượng 
Nam Dinh | Thái Binh 5 £ 
Nam Dinh | Hai Phong 10 y 
Hài Duong | Thái Binh 15 2 
Hài Duong | Hài Phóng 4 t 


Tổng chi phí (objective function) sẽ là f(x, y, z, t) = 5x + 10y + 152 + 4t. Các điều kiện ràng 
buóc (constraints) viét duói dang biéu thúc toán hoc la: 


e Chuyển 600 cuốn tới Thái Bình: z + z = 600. 
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Chuyển 400 cuốn tới Hài Phòng: y + t = 400. 
e Lấy từ kho Nam Dinh không quá 800: z + y < 800. 
e Lấy từ kho Hài Dương không quá 700: z + t < 700. 


e z,,z,† là các só tự nhiên. Rang buộc là số tự nhiên sẽ khiến cho bài toán rất khó giải nếu 
số lượng biến là lớn. Với bài toán này, giả sử rang x, y, z, t là các số thuc dương. Nghiệm 
tìm được sẽ được làm tròn tới số tự nhiên gần nhất. 


Vậy ta cần giải bài toán tối ưu sau đây: 


Bài toán NXB! 
(x,y, 2,t) =arg min 5z + 10 + 15z + 4t 


%,U,z,t 


thoà mãn: x + z = 600 
y +t = 400 (24.1) 
x +y < 800 
z +t < 700 
xz, y, z,t>0 


Nhận thấy rằng hàm mục tiêu (objective function) là một hàm tuyến tính của các bién 
x,y,2,t. Các điều kiện ràng buộc đều có dạng siêu phẳng hoặc nửa không gian, đều là 
các rang buộc tuyến tính (linear constraints). Bài toán tôi uu với cà objective function và 
constraints đều là tuyến tính được gọi là quy hoạch tuyến tính (linear programming (LP)). 
Dạng tổng quát và cách thức lập trình để giải một bài toán thuộc loại này sẽ được cho trong 
phần sau của chương này. 


24.1.2 Bài toán canh tác 


Bài toán: Một anh nông dân có tổng cộng 10ha (10 hecta) đất canh tác. Anh dự tính trồng 
cà phê và hồ tiêu trên diện tích đất này với tổng chi phí cho việc trồng này là không quá 
16T (triệu đồng). Chi phí để trồng cà phê là 2T cho 1ha, để trồng hồ tiêu là 1T/ha. Thời 
gian trồng cà phê là 1 ngày/ha và hồ tiêu là 4 ngày/ha; trong khi anh chỉ có thời gian tổng 
cộng là 32 ngày. Sau khi trừ tất cả các chi phí (bao gồm chi phí trồng cây), mỗi ha cà phê 
mang lại lợi nhuận 5T, mỗi ha hồ tiêu mang lại lợi nhuận 3T. Hỏi anh phải quy hoạch như 
thế nào để tối đa lợi nhuận? 


Phân tích 


Gọi z và y làn lượt là số ha cà phê và hồ tiêu mà anh nông dân nên trồng. Lợi nhuận anh 
ấy thu được là f(x, y) = 5x + 3 (triệu đồng). Day chính là hàm mục tiêu của bài toán. Các 
ràng buộc trong bài toán này được viết dưới dạng: 


! Nghiệm cho bài toán này có thể nhận thấy ngay là « = 600, y = 0,2 = 0, = 400. Nếu số lượng ràng buộc và số 
biến nhiều hơn, chúng ta cần một lời giải có thể tìm được bằng cách lập trình. 
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Hinh 24.1: Minh hoa nghiém cho 
bài toán canh tác. Phần ngũ giác 
màu xám thể hiện tập hợp các 
điểm thoả mãn các ràng buộc. Các 
đường nét đứt thể hiện các đường 
đồng mức của hàm mục tiêu với 
màu càng đỏ tương ứng với giá trị 
càng cao. Nghiệm tìm được chính 
là điểm màu xanh, là giao điểm của 
hình ngũ giác xám và đường đồng 
mức ứng với giá trị cao nhất. 


e Tổng diện tích trồng không vượt quá 10ha: x +y < 10. 
e Tổng chi phí trồng không vượt quá 16T: 2z + y < 16. 
e Tổng thời gian trồng không vượt quá 32 ngày: z + 4 < 32. 


e Diện tích cà phê và hồ tiêu là các số không âm: x,y > 0. 


Vậy ta có bài toán tối ưu sau đây: 


Bài toán canh tác 
(+, y) = arg max 5z + 3y 
+, 


thoả màn: x + y € 10 
2x 4 y € 16 (24.2) 
x + 4y < 32 
x,y > o0 


Bài toán này yêu cầu toi da hàm mục tiêu thay vi tdi thiểu nó. Việc chuyển bài toán này vé 
bài toán tói thiểu có thể được thực hiện don giản bằng cách đổi dấu hàm mục tiêu. Khi đó 
hàm mục tiêu vẫn là tuyến tình, các ràng buộc là tuyến tính, ta lại có một bài toán linear 
programming nữa. Hình 24.1 minh hoạ nghiệm cho bài toán canh tác. 


Vùng màu xám có dạng polyhedron (trong trường hợp này là đa giác) chính là tập hợp các 
điểm thoả mãn các ràng buộc. Các đường nét đứt có màu chính là các đường đồng múc 
(level set) của hàm mục tiêu 5z + 3, mỗi đường ứng với một giá trị khác nhau với màu 
càng đỏ ứng với giá trị càng cao. Một cách trực quan, nghiệm của bài toán có thể tìm được 
bằng cách di chuyển đường nét đứt màu xanh về phía bên phải (phía làm cho giá trị của 
hàm mục tiêu lớn hơn) đến khi nó không còn điểm chung với phần đa giác màu xám nữa. 


Có thể nhận thấy nghiệm của bài toán chính là điểm màu xanh là giao điểm của hai đường 
thẳng x+y = 10 và 2z + y = 16. Giải hé phương trinh này ta có z* = 6 và y* = 4. Tức anh 
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nông dân nên trồng 6ha cà phê và 4ha hồ tiêu. Lúc đó lợi nhuận thu được là 5z* + 3y* = 42 
triệu đồng, trong khi anh chỉ mất thời gian là 22 ngày. Trong khi đó, nếu trồng toàn bộ hồ 
tiêu trong 32 ngày, tức Sha, anh chỉ thu được 24 triệu đồng. 


Với các bài toán tối wu có nhiều biến hơn và nhiều ràng buộc hơn, sẽ rất khó để minh hoạ 
và tìm nghiệm như cách này. Chúng ta cần có một công cụ hiệu quả hơn, tốt nhất là nghiệm 
có thể tìm được bằng cách lập trình. 


24.1.3 Bài toán đóng thùng 


Bài toán: Một công ty phải chuyển 400 m* cát tới địa điểm xây dựng ở bên kia sông bằng 
cách thuê một chiếc xà lan. Ngoài chi phí vận chuyển một lượt đi về là 100k của chiếc xà 
lan, công ty đó phải thiết kế một thùng hình hộp chữ nhật đặt trên xà lan để đựng cát. 
Chiếc thùng này không cần nắp, chi phí cho các mặt xung quanh là 1T/m?, cho mặt đáy là 
2T/m?. Hỏi kích thước của chiếc thùng đó như thé nào để tổng chi phí vận chuyển là nhỏ 
nhất. Để cho đơn giản, giả sử cát chỉ được đồ ngang hoặc thấp hơn với phần trên của thành 
thùng, không có ngọn. Giả sử thêm rằng xà lan rộng vó han và chứa được sức nặng vô han, 
giả sử này khiến bài toán dễ giải hơn. 


Phân tích 


Giả sử chiếc thùng cần làm có chiều dài, chiều rộng, chiều cao lần lượt là z, y, z (m). Thé 
tích của thùng là xyz (đơn vi là m?). Có hai loại chi phí: 


e Chi phí thuê xà lan. Só chuyén xà lan phải thuê là Er ( 


ta hãy tạm giả sử rằng đây là 
một số tự nhiên, việc làm tròn này sẽ không thay đổi kết quả đáng kể vì chi phí vận 


chuyển một chuyến là nhỏ so với chi phí làm thùng). Số tiền phải trả cho xà lan sẽ là 
400 40 S 
.Jl ——=_——=40z y !z (0.16 day là 0.1 triệu đồng). 
zyz LUZ 
e Chi phí làm thùng. Diện tích xung quanh của thùng là 2(x +y)z. Diện tích day là xy. Vậy 
tổng chi phí làm thùng là 2(z + y)z + 2z = 2(z + yz + zx). 


Tổng toàn bộ chi phí là f(x,y,z) = 40r ly !z^! + 2(zy + yz + zz). Điều kiện ràng buộc 
duy nhất là kích thước thùng phải là các số dương. Vậy ta có bài toán tối ưu sau đây. 


Bài toán vận chuyền: 
(x, y) = arg min 40z !y !z ^! + 2(xy + yz + zz) 


PIN (24.3) 
thoả mãn: x, y, z > 0 


Bài toán này thuộc loại geometric programming (GP). Dinh nghĩa của GP va cách dùng 
công cụ tối ưu sẽ được trình bày trong phần sau của chương. 
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Báng 24.1: Báng các thuát ngú và ky hiéu trong các bài toán tói uu. 


Ky hiéu Tiéng Anh Tiéng Viét 
x € R” optimization variable bién tối uu 

fo: R” > R objective/loss/cost/function | hàm mục tiêu 
fix) 0 inequality constraint bát dàng thức ràng buộc 

fi: R” >R inequality constraint function | hàm bất đẳng thức ràng buộc 
h;(x) =0 equality constraint dàng thức ràng buộc 

h; : R” > R equality constraint function | hàm dàng thức ràng buộc 

D = (Y, domƒ; N NF- domh; | domain tập xác định 


Nhận thấu rằng bài này hoàn toàn có thể dùng bát đẳng thúc Cauchy để giải được, nhưng 
chúng ta muốn một lời giải cho bài toán tổng quát sao cho có thể lập trinh được. 


(Lời giải: 
20 20 : 
f(z,y,2)— | + 2z + 2yz + 2zz > 53200 
LYZ  LYZ 


dấu bằng xáy ra khi va chỉ khi z = y = z = Ÿ10.) 


Nếu có các ràng buộc về kích thước của thùng và trọng lượng mà xà lan tải được thì có thể 
tìm được lời giải đơn giản như thế này không? 


Những bài toán trên đây đều là các bài toán tối ưu. Chính xác hơn nữa, chúng đều là các bài 
toán tối ưu lồi (conver optimization problems) như các ban sẽ thay ở phần sau của chương. 
Trước hết, chúng ta cần hiểu các khái niệm về các bài toán tối uu lồi convex optimization 
problems và tai sao chúng lại quan trọng. 


24.2 Nhắc lại bài toán tối ưu 
24.2.1 Các khái niệm cơ bản 
Bài toán tối ưu ở dạng tổng quát: 


x” = arg min fo(x) 


thoá mãn: (x) € 0, 2—1,2,...,m (24.4) 
h;(x)=0, j=1,2,...,p 


Phát biĉu băng lòi: Tìm giá tri cúa bién x dé tói thiĉu hàm fo(x) trong só các giá tri cúa x 
thoả mãn các điệu hiện ràng buộc. Ta có bảng các khái niệm và ký hiệu trong bài toán tối 
ưu bằng cả tiếng Anh và tiếng Việt như trong Bảng 24.1. Ngoài ra, 
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e Khim = p = 0, bài toán (24.4) được gọi là bài toán tối ưu không rang buộc (unconstrained 
optimization problem). 


e D là tập xác định, tức giao của tất cả các tập xác định của mọi hàm só xuất hiện trong 
bài toán. Tập hợp các điểm thoả mãn mọi điều kiện ràng buộc, thông thường, là một tập 
con của D được gọi là feasible set hoặc constraint set. Khi feasible set là một tập rỗng thì 
ta nói bài toán tối ưu (24.4) là infeasible (vô nghiệm). Néu một điểm nằm trong feasible 
set, ta gọi điểm đó là feasible. 


e Optimal value (giá trị tối ưu) của bài toán tối ưu (24.4) được định nghĩa là: 


p = inf { fo(x)|fi(x) < 0,2 = les HR h;(x) — 0,7 = 1,..., p} 


trong đó inf là viết tắt của hàm infimum. p* có thể nhận các giá tri +00. Nếu bài toán là 
infeasible, tức không có điểm nào thoả mãn tất cá các ràng buộc, ta coi p* = +00, Nếu 
hàm mục tiêu không bi chặn dưới (unbounded below) trong tập xác định, ta coi p* = —oo. 


24.2.2 Optimal và locally optimal points 


Một điểm x* được goi là một điểm optimal point (điểm tối uu), hoặc là nghiệm của bài toán 
(24.4) nếu x* là feasible và fo(x*) = p*. Tap hop tất cả các optimal point được gọi là optimal 
set. Nếu optimal set là một tập không rỗng, ta nói bài toán (24.4) là gidi được (solvable). 
Ngược lại, nếu optimal set là một tập rỗng, ta nói optimal value là không thể đạt được (not 
attained/ not achieved). 


Vi dụ: xét hàm muc tiêu f(x) = 1/+ với ràng buộc x > 0. Optimal value của bài toán này 
là p* = 0 nhung optimal set là một tập rỗng vì không có giá trị nào của x để hàm mục tiêu 
đạt giá trị 0. Lúc này ta nói giá tri tối ưu là không đạt được. 


Với hàm một biến, một điểm là cực tiéu của hàm số nếu tại đó, hàm só đạt giá trị nhỏ nhất 
trong một lân cận (và lân cận này thuộc tập xác định của hàm số). Trong không gian một 
chiều, lân cán của một điểm được hiểu là tập các điểm cách điểm đó một khoảng rất nhỏ. 
Trong không gian nhiều chiều, ta gọi một điểm x là locally optimal néu tồn tại một giá tri 
R > 0 sao cho: 


fo(x) = inf{ fo(z)| fi(z) < 0,2 = 1,4. 1, 
h;(z) =0,j = 1,...,p, lÌz — xil» « R) (24.5) 


Nếu một điểm feasible x thoả mãn f,(x) = 0, ta nói rằng bát dàng thức ràng buộc thứ 
i: fi(x) = 0 là active. Nếu f;(x) < 0, ta nói rằng ràng buộc này là inactive tai x. 


24.2.3 Một vài luu ý 


Mặc dù trong định nghĩa bài toán tối ưu (24.4) là cho bài toán tối thiểu hàm mục tiêu với 
các ràng buộc thoả mãn các điều kiện nhỏ hơn hoặc bằng 0, các bài toán tối ưu với tối đa 
hàm muc tiêu và điều kiện ràng buộc ở dạng khác đều có thé đưa về được dang này: 
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e max fo(x) & min — f(x). 

e fix) <Sø(x) © fix) — g(x) € 0. 

e fi(x) 20 —fi(x) <0. 

e ø< f(x) <b fi(x)-b<0 vaa— fi(x) <0. 


e fi(x) € 0 & fi(x) +5; = 0 va s; > 0. s; được goi là slack variable. Phép bién doi don 
giản này trong nhiều trường hop lai tó ra hiệu quả vi bat dàng thức s; > 0 thường dé giải 
quyết hơn là f;(x) < 0. 

24.3 Bài toán tối ưu lồi 


Trong toán tối ưu, chúng ta đặc biệt quan tâm tới những bài toán mà hàm mục tiêu là một 
hàm lồi, và feasible set cũng là một tập lồi. 


24.3.1 Định nghĩa 
Định nghĩa 24.1: Bài toán tối ưu lỗi 


Một bài toán tối uu lồi (convex optimization problem) là một bài toán tôi uu có dang 


x* = arg min fo(x) 


thoa man: f(x) <0, i= 1,2,... 


hj (x) = al 


trong đó fo, fi... , fm là các hàm lồi. 


So với bài toán tối uu (24.4), bài toán tối ưu lồi (24.6) có thêm ba điều kiện nữa: 


e Hàm mục tiêu là một hàm lồi. 
e Các hàm bất dàng thức ràng buộc f; là các hàm lồi. 


e Hàm đẳng thức ràng buộc h; là affine. 
Một vài nhận xét: 


e Tập hợp các điểm thoả mãn h;(x) = 0 là một tập lồi vì nó có dạng một hyperplane. 


e Khi f; là một hàm loi thì tập hợp các điểm thoả mãn ƒ;(x) < 0 chính là 0-sublevel set 
của f; và là một tập lồi. 
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e Như vậy, tập hợp các điểm thoả mãn moi điều kiện ràng buộc chính là giao điểm của các 
tập lồi, vì vậy nó là một tập lồi. 


24.3.2 Local optimum của bài toán tối ưu lồi chính là global optimum của nó 


Tính chất quan trọng nhất của bài toán tối ưu lồi chính là mọi điểm locally optimal point 
chính là một điểm (globally) optimal point (điểm cực tiểu chính là nghiệm của bài toán). 
Việc này có thể chứng minh bằng phản chứng.. Gọi xo là một điểm locally optimal: 


fo(xo) = inf{ƒfo(x)|x € feasible set, ||x — xoll2 € R} 


với R > 0 nào đó. Giả sử xy không phải là một điểm globally optimal, tức tồn tại một điểm 
feasible y sao cho f(y) < f(xo) (hiển nhiên rằng y không nằm trong lân cận đang xét). Ta 
có thé tìm được Ø € [0, 1] đủ nhỏ sao cho z = (1 — 0)xo + Oy nằm trong làn cận của xo, tức 
[Iz — xo||a < R. Việc này có được vi feasible set là một tập lồi. Hơn nữa, vi hàm muc tiêu fo 
là một hàm lồi, ta có 


fo(z) = fo((1 — 0)xo + Ay) (24.6) 
< (1 — 4) fo(xo) + 0fo(y) (24.7) 
< (1 — 0) fo(xo) + 8fo(xo) = fo(xo) (24.8) 


điều này mâu thuẫn với giả thiết xy là một điểm cực tiểu. Vậy giả sử sai, tức xo chính là 
globally optimal point và ta có điều phải chứng minh. 


Chứng minh bằng lời: giả sử một điểm cực tiểu không phải là điểm làm cho hàm số đạt giá 
trị nhỏ nhất. Với điều kiện feasible set và hàm muc tiêu là lồi, ta luôn tìm được một điểm 
khác trong lân cận của điểm cực tiểu đó sao cho giá trị của hàm mục tiêu tại điểm mới này 
nhỏ hơn giá trị của hàm mục tiêu tại điểm cực tiểu. Sự mâu thuẫn này chỉ ra rằng với một 
bài toán tối ưu lồi, điểm cực tiểu phải là điểm làm cho hàm số đạt giá trị nhỏ nhất. 


24.3.3 Điều kiện tối ưu cho hàm mục tiêu khả vi 
Nếu hàm mục tiêu fo là khả vi, theo first-order condition, với mọi x, y € dom fo, ta có: 
fo(x) > fo(xo) + V fo(xo)" (x — xo) (24.9) 
Đặt X là feasible set. Điều kiện cần và đủ để một điểm xo € Y là optimal point là: 
V fo(xog)? (x — xạ) > 0, Vx € X (24.10) 


Phần chứng minh cho điều kiện này được bó qua, bạn doc có thé tìm trong trang 139-140 
của cuốn Convex Optimization [B V04]. 
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Hinh 24.2: Biểu diễn hinh hoc của 
điều kiện tôi ưu cho hàm mục tiêu 
khả vi. Các đường nét đứt có màu 
tương ứng với các level sets (đường 
đồng mức). 


Điều này chỉ ra rằng nếu V fo(xo) = 0 thi xo chính là một điểm optimal của bài toán. Nếu 
V fo(xo) Æ 0, nghiệm của bài toán sẽ phái nằm trên biên của feasible set. That vậy, quan sát 
Hình 24.2, điều kiện này nói rằng nếu xy là một điểm optimal thì với moi x € Æ, vector di từ 
Xo tới x hợp với vector —V fo(xo) một góc tù. Nói cách khác, nếu ta vẽ mặt tiếp tuyến của 
hàm mục tiêu tại xo thì mọi điểm feasible nằm về một phía so với mặt tiếp tuyến này. Điều 
này chỉ ra rằng Xy phải nằm trên biên của feasible set Y. Hơn nữa, feasible set nằm về phía 
làm cho hàm mục tiêu đạt giá trị cao hơn fo(xo). Mặt tiếp tuyến này chính là supporting 
hụperplane của feasible set tại điểm xg. Nhắc lại rằng khi vẽ các level set, chúng ta dùng 
màu lam để chỉ giá trị nhỏ, màu đỏ để chỉ giá trị lớn của hàm. 


(Một mặt phẳng đi qua một điểm trên biên của một tập hợp sao cho mọi điểm trong tập 
hợp đó nằm về một phía (hoặc nằm trên) so với mặt phẳng đó được gọi là một siêu phẳng 
hỗ trợ (supporting hyperplane). Nếu một tập hợp là lồi, tồn tai supporting hyperplane tại 
mọi điểm trên biên của nó.) 


24.3.4 Giới thiệu thư viện CVXOPT 


CVXOPT là một thư viện miễn phí trên Python đi kèm với cuốn sách Convex Optimization. 
Hướng dẫn cài đặt, tài liệu hướng dẫn, và các ví dụ mẫu của thư viện này cũng có đầy đủ 
trên trang web CVXOPT (Attp:// cvropt.org/). Trong phần còn lại của chương, chúng ta 
sẽ thảo luận ba bài toán cơ bản trong convex optimization: linear programming, quadratic 
programming, và geometric programming. Chúng ta sẽ cùng lập trình để giải các ví dụ đã 
nêu ở phần đầu bài viết dựa trên thư viện CVXOPT này. 


24.4 Linear programming 
Chúng ta cùng bắt đầu với lớp các bài toán đơn giản nhất trong convex optimization - linear 


programming (LP). Trong đó, hàm mục tiêu fo(.) và các hàm bất đẳng thức ràng buộc 
J(.),?=1,...,mm đều là các hàm affine. 
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24.4.1 Dang tóng quát cüa linear programming 


Dang tóng quát (general form) cüa linear programming 


x — arg minc? x 4- d 
x 


thoả mãn: Gx=Xh 
Ax=b 


Trong đó G c R"*"h cR", AC RP". bcmRP,cxcm" vad cR. 


Só vó huóng d chí làm thay dói giá tri cúa hàm muc tiéu mà khóng làm thay dói nghiém cúa 
bài toán nên có thé được lược bó. Nhắc lại rằng ký hiệu < nghĩa là mỗi phần tử trong vector 
ở về trái nhỏ hơn hoặc bằng phần tử tương ứng trong vector ở về phải. Chú ý rằng nhiều 
bất dàng thức dạng g;x < h;, với g; là các vector hàng, có thể viết gop dưới dạng Gx < h 
trong đó mỗi hàng của G ứng với một gi, mỗi phần tử của h tương ứng với một hạ. 


24.4.2 Dạng tiêu chuẩn của linear programming 


Trong dạng tiêu chuẩn (standard form) LP, các bât đẳng thức ràng buộc chỉ là điều kiện các 
nghiệm có thành phần không âm. 


Dạng tiêu chuán của linear programming 


X = arg min cix 
x 


thoả mán: Ax — b 
x =O 


Dang tổng quát (24.11) có thể được đưa về dạng tiểu chuẩn (24.12) bằng cách đặt thêm bién 
slack s. 
x = arg minc? x 
thoả man: Ax = b (24.13) 
Gx+s=h 


s=0O 
Tiếp theo, nếu ta biểu diễn x dưới dạng hiệu của hai vector mà thành phần của nó đều 
không âm, tức: x = x^ — x^, với x*,x- > 0. Ta có thể tiếp tục viết lại (24.13) dưới dạng: 
x arg min cx? —cix- 
thoả mãn: Ax* —Ax = b (24.14) 
Gx'—Gx +s=h 
xt -0,x- - 0,870 
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—— 1 Hành 24.3: Biểu diễn hình học của 
' linear programming. 
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Tới đây, ban doc có thể thấy rằng (24.14) có thể viết gọn lại như (24.12). 


24.4.3 Minh hoạ bằng hình học của bài toán linear programming 
Các bài toán LP có thé được minh hoạ như Hình 24.3. Điểm xp chính là điểm làm cho hàm 
mục tiêu dat giá trị nhỏ nhất, điểm x, chính là điểm làm cho hàm mục tiêu đạt giá trị lớn 
nhất. Nghiệm của các bài toán LP, nếu có, thường là một điểm ở đỉnh của polyheron feasible 
set hoặc là một mát của polyhedron đó (trong trường hợp các đường level sets của hàm mục 


tiêu song song với mặt đó, và trên mặt đó, hàm mục tiêu đạt giá trị tối ưu). 


Tiếp theo, chúng ta sẽ dùng thư viện CVXOPT để giải các bài toán LP. 


24.4.4 Giải LP bằng CVXOPT 


Nhắc lại bài toán canh tác 
(+, y) = arg max 5z + 3 
TY 
(24.15) 


thoả màn: x + y € 10 


2r +y X 16 
x + 4ụ < 32 
27,20 
Các điều kiện ràng buộc có thể viết lại dưới dang Gx < h, trong đó 
1 1 10 
2 I 16 
G= 1 4ļ|hb= |32 
—1 0 0 
0 —1 0 


Khi sử dung CVXOPT, chúng ta lập trinh như sau: 
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from cvxopt import matrix, solvers 


c — matrix([-5., =3.]) # since we need to maximize the objective funtion 
G = matrix ( [Ley 2.; Tos Lor On), Ilez Lis ej Des —L21]]) 

h = matrix([10., 16., 32., Dc, 0.1) 

solvers.options['show_progress'] = False 

sol = solvers.lp(c, G, h) 


print (“Soliution”*") 
print (sol['x']) 


Kết quả: 


Solution: 
[ 6.00e+00] 
[ 4.00e+00] 


Nghiệm này chính là nghiệm mà chúng ta đã tìm được trong phần đầu của bài viết dựa trên 
biểu diễn hình học. 


Một vài lưu ý: 


e Hàm solvers.lp của cvxopt giải bài toán (24.13). 


e Trong bài toán của chúng ta, vì ta cần tim giá trị lớn nhất nên ta phải đổi hàm mục tiêu 
về dang —5z — 3y. Chính vi vậy mà c = matrix([—5., —3.]). 


e Hàm matrix nhận đầu vào là một list (trong Python), list này thể hiện một vector cột. 
Nếu muốn biểu diễn một ma trận, đầu vào của matrix là một 1ist của 1ist, trong đó mỗi 


1ist bên trong thể hiện một vector cột của ma trận đó. 


e Các hằng số trong bài toán cần ở dạng số thực. Nếu chúng là các số nguyên, ta cần thêm 
dấu . vào sau các số đó thể thể hiện đó là số thực. 


e Với dàng thức ràng buộc Ax = b, solvers.1p lấy giá trị mặc định của A và b là None, tức 
nếu không khái báo thì nghĩa là không có dàng thức ràng buộc nào. 


Với các tuỳ chon khác, ban doc có thể tìm trong tài liệu của CVXOPT (https: //g00.gl/ 
q5CZmz). Việc giải Bài toán NXB bằng CVXOPT xin nhường lại cho ban doc. 


24.5 Quadratic programming 


24.5.1 Bai toán quadratic programming 


Một dạng bài toán convex optimization phổ biến khác là quadratic programming (QP). Khác 
biệt duy nhất của QP so với LP là hàm mục tiêu có dang toàn phương (quadratic form). 
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LO ae Hinh 24.4: Biéu dién hinh hoc cúa 
Quadratic Programming _---~~ ~~~ ~~~ Quadratic Programming. 
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Quadratic Programming 


1 
x = arg min zx Px +qfx+r 


(24.16) 


thoả mãn: Gx < h 
Ax=b 


Trong đó P là một ma trận vuông nửa xác định dương bậc n, G € R"*", A c] 


Điều kiện nửa xác định dương của P để đảm bảo rằng hàm mục tiêu là convex. Trong QP, 
một hàm quadratic lồi được tối thiểu trên một polyhedron (Xem Hình 24.4). LP chính là 
một trường hợp đặc biệt của QP với P = 0. 


24.5.2 Ví dụ về QP 


Bài toán vui: Có một hòn đảo có dạng một đa giác lồi. Một con thuyền ở ngoài biển thì 
cần đi theo hướng nào để tới đảo nhanh nhất, giả sử rằng tốc độ của sóng và gió bằng 0. Có 
thể thấy rằng nghiệm của bài toán chính là một góc của đảo gần con thuyền nhất hoặc hình 
chiếu vuông góc của thuyền tới cạnh gần nhất của đảo. Đây chính là bài toán tìm khoảng 
cách từ một điểm tới một polyhedron. 


Bài toán tìm khoảng cách từ một điểm tới một polyhedron: cho một polyhedron là tập hợp 
các điểm thoả mãn Ax < b, và một điểm u, tìm điểm x thuộc polyhedron đó sao cho khoảng 
cách Euclidean giữa x và u là nhỏ nhất. Đây là một bài toán QP có dạng 


zd 2 
x — arg min glx — ul 
thoả mãn: Gx~<h 
Hàm mục tiêu đạt giá trị nhỏ nhất bằng 0 nếu u nằm trong polyheron đó và nghiệm chính 
là x = u. Khi u không nằm trong polyhedron, ta viết 


l T 


1 
T(x- u) = 9* X— ufx+ juu 


Biểu thức này có dang hàm muc tiêu nhu trong (24.16) với P = I, q = —u,r = su”u, trong 
đó I là ma trận đơn vi. 
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polyhedron. 


24.5.3 Giái QP báng CVXOPT 


Hinh 24.5: Ví du vé khoáng 
cách giữa một diém và một 


Xét bài toán được cho trên Hình 24.5. Ta cần tìm khoảng cách từ điểm có toạ độ (10, 10) 
tới hình đa giác lồi màu xám. Chú ý rằng khoảng cách từ một điểm tới một tập hợp chính 
là khoảng cách từ điểm đó tới điểm gần nhất trong tập hợp. Bài toán này được viết dưới 


dạng QP như sau: 


(x, y) = arg min(z — 10)? + (y — 10)? 
zy 


1 1 10 
2 1 16 
thoá mán: 1 4 B = | 32 
=1. 5 0 
0 —1 0 


Feasible set trong bài toán được lấy từ Bài toán canh tác, và u = [10,10]7. Bài toán này có 


thể được giải bằng CVXOPT như sau: 


from cvxopt import matrix, solvers 


P = matrix([[1., 0.1, [0., 1.]]) 

q = matrix([-10., -10.]) 

GS matris (ilL Zur Lear =y On), Die; 125 Sey Dep =L.11) 
h = matrix([10., 16., 32., 0., 0]) 
solvers.options[’show_progress’] = False 


sol = solvers.qp(P, q, G, h) 


print (“Solutions®”) 
print (sol[’x’]) 
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Két quá: 


Solution: 
[ 5.00e+00] 
[ 5.00e+00] 


Như vậy, nghiệm của bài toán tối ưu này là điểm có toa độ (5,5) . 

24.6 Geometric Programming 

Trong mục này, chúng ta cùng thảo luận một lớp các bài toán không lôi khi quan sát hàm 
mục tiêu và các hàm ràng buộc, nhưng có thể được biến đổi về dạng lói bằng một vài kỹ thuật 


không quá phức tạp. Trước hết, ta làm quen với hai khái niệm monomial và posynomial. 


24.6.1 Monomial và posynomial 


Một hàm só f : R” — R với tập xác dinh domf = R”? (tất cả các phần tử đều là số dương) 
có dạng 
o ee (24.17) 


n 


trong đó c > 0 và a; € R, được gọi là một monomial function (khái niệm này khá giống với 
đơn thức trong chương trình phó thông, nhung sách giáo khoa định nghĩa với c bát kỳ và a; 
là các số tự nhiên). 

Tổng của các monomial 


K 
(er ea aa (24.18) 
k=1 


trong đó các cz > 0, được gọi là posynomial function (da thúc), hoặc đơn giản là posynomial. 


24.6.2 Geometric programming 


Geometric programming (GP) 


x — arg min fo(x) 


thoá ndn: Do) <1, i=1,2,...,m 
h;(x) = 1, JH 12 ip 


trong do fo, f1,..., fm là các posynomials và hi,..., hy là các monomials. 


Điều kiện x > 0 dá được ẩn di. 


Chú ý rằng nếu f là một posynomial, h là một monomial thì f /h là một. posynomial. 
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Ví du, bài toán tói uu 


(x,y,z) = arg min z/y 


Y, 
thoả mãn: 1<x<2 (24.20) 
g3 + Qy/z< Vy 
z/y-—z 
có thé được viết lại dưới dang GP: 


(x,y,z) = arg min xy ! 
T,Y,Z 


thoả mãn: xz «1 (24.21) 
(1/2)z <1 
ay? + 2y 112771 < 1 


Bài toán này rõ ràng là không lói vì cá hàm mục tiêu và điều kiến ràng buộc đều không lồi. 
24.6.3 Biến đổi GP về dang bài toán tối ưu lồi 


GP có thể được biến đổi về dạng lồi bằng cách sau đây. Dat y; = log(z;), tức v; = exp(y;). 
Nếu ƒ là một monomial function của x thì: 


n 


f(x) = clexply1))” ... (exp(yn))"” = cexp (Y: an) = exp(a"y + b) 


i=1 


với b = log(c). Lúc này, hàm só g(y) = exp(aTy + b) là một hàm lồi theo y. (Ban đọc có 
thể chứng minh theo định nghĩa rằng hợp của hai hàm lói là một hàm lồi. Trong trường hợp 
này, hàm exp và hàm affine trên đều là các hàm lồi.) 


Tương tự như thế, posynomial trong đẳng thức (24.18) có thể được viết dưới dạng 


K 
f(x) = Y ` exp(aty + bx) 
k=1 
trong đó ap = [ai . .., ank], be = log(cg) và y; = log(a). Lúc này, posynomial đã được viết 


dưới dang tổng của các hàm exp của các hàm affine, và vì vậy là một hàm lồi theo y, nhắc 
lại rằng tổng của các hàm lồi là một hàm lồi. 


Bài toán GP (24.19) được viết lại dưới dạng: 


Ko 


y = arg min > exp(ag,y + box) 
k=1 
K; (24.22) 
thoá mán: 3 explaly be | <1, i=1,...,m 


k=1 
exp(g; y -- hj) =1, j l.p 
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VỚI ag € R”, Vi = 1,...,p và gs E R”, Vj = Ly... p. 


Với chú ý rằng hàm só log ($5; , exp(gi(z))) là mot hàm 101 theo z nếu g; là các hàm lôi 
(xin bó qua phần chứng minh), ta có thể viết lại bài toán (24.22) dưới dạng loi bằng cách 
lấy log của các hàm như sau. 


Geometric programming dưới dạng bài toán tối ưu lồi 


Ko 
minimize, fo(y) — log (S exp(ad,y + i) 


k=1 


: S (24.23) 
thoả mãn: f;(y) = log 3 _cxp(ay Th] <0, i=1,...,m 


k=1 


hily)=8 y +h; =0, j=1,...,p 


Lúc này, ta có thể nói rằng GP tương đương với một bài toán tối ưu lồi vì hàm mục tiêu 
và các hàm bất đẳng thức ràng buộc trong (24.23) đều là hàm lồi, đồng thời điều hiện đẳng 
thức cuối cùng chính là dang affine. Dang này thường được gọi là geometric program in 
convex form (dé phan biệt nó với dang định nghĩa của GP). 


24.6.4 Giải GP bằng CVXOPT 


Quay lại ví dụ về Bài toán đóng thùng không có ràng buộc và hàm mục tiêu là f(x, y, z) = 
40+~tụ~!z~! + 2z + 2yz + 22x là một posynomial. Vậy day là một GP. 


Nghiệm của bài toán có thể được tìm bằng CVXOPT như sau: 


from cvxopt import matrix, solvers 
from math import log, exp# gp 

from numpy import array 

import numpy as np 


K = [4] # number of monomials 
F = matrix([[-1., 1., Lep 0.1, 
[SL Lay Org Laly 
[2134 Otay: Ley Dad) 
g = matrix([log(40.), 1og(2.), 1og(2.), log(2.)]) 
solvers.options[’show_progress’] = False 


sol = solvers.gp(K, F, g) 


print ("Solution") 
print (np.exp(np.array(sol['x']))) 


print (’\nchecking sol^5r) 
print (np.exp(np.array(sol['x']))**5) 
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Kết quả: 


Solution: 


[ 


1.58489319] 
1.58489319] 
1.58489319]] 


checking sol^5 


[ 


9.9999998] 
9.9999998] 
9.9999998]] 


Nghiệm thu được chính là x = y = z = 4/10. Ban doc được khuyến khích doc thêm chi dẫn 
của hàm solvers.gp (https://goo.gl/5FEBtn) dé hiểu cách thiết lập và giải bài toán GP. 


24.7 Tóm tát 


Các bài toán tối ưu xuất hiện rất nhiều trong thuc tế, trong đó tối ưu lồi đóng một vai 
trò quan trọng. Trong bài toán tối ưu lồi, nếu tìm được cực trị thì cực trị đó chính là một 
điểm optimal của bài toán (nghiệm của bài toán). 


Có nhiều bài toán tối ưu không được viết dưới dạng lồi nhung có thể biến đổi về dang 
lồi, ví dụ như bài toán geometric programming. 


Linear programming vá quadratic programming đóng một vài trò quan trọng trong toán 
tối ưu, được sử dụng nhiều trong các thuật toán Machine Learning. 


Thư viện CVXOPT được dùng để tối ưu nhiều bài toán tối ưu lồi, rất dé sử dụng và thời 
gian chạy tương đối nhanh. Phù hợp với mục đích học tập và nghiên cứu. 
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Duality 


25.1 Giới thiệu 


Trong Chương 23, chúng ta đã làm quen với các khái niệm về tập hợp lồi và hàm số lồi. Tiếp 
theo đó, trong Chương 24, chúng ta đã thảo luận các bài toán tối ưu lồi, cách nhận dạng và 
cách sử dụng thư viện để giải các bài toán tối ưu lồi cơ bản. Trong chương này, chúng ta sẽ 
tiếp tục tiếp cận một cách sâu hơn: các điều kiện về nghiệm của các bài toán tối ưu, cả lồi 
và không lồi; bài toán đối ngẫu (dual problem) và điều kiện KKT. 


Trước tiên chúng ta xét bài toán mà ràng buộc chỉ là một phương trình: 


x =arg min fo(x) 
x (25.1) 
thoả man: fi(x) = 0 


Bài toán này là bài toán tổng quát, không nhất thiết phải lồi. Tức hàm mục tiêu và hàm 
ràng buộc không nhất thiết phải lồi. Bài toán này có thể được giải bằng phương pháp nhân 
tử Lagrange (xem Phụ Luc A). Cu thé, xét hàm số L(x, A) = fo(x) + Afi(x). Chú ý rằng, 
trong hàm số này, chúng ta có thêm một biến nữa là A, biến này được gọi là nhân tú Lagrange 
(Lagrange multiplier). Hàm số £(x, A) được goi là hàm hỗ trợ (auxiliary function), hay the 
Lagrangian. Người ta đã chứng minh được rằng, điểm optimal value của bài toán (25.1) thoả 
mãn điều kiện Vx,,£(x, A) = 0. Điều này tương dương với 


Vxfo(x) + AVxfi(x) = 
fix) = 


Dé ý rằng điều kiện thứ hai chính là V,L(x, A) = 0, vá cũng chính là ràng buộc trong bài 
toán (25.1). Việc giải hệ phương trình (25.2) - (25.3), trong nhiều trường hợp, đơn giản hơn 
việc trực tiếp đi tim optimal value của bài toán (25.1). Một vài ví du về phương pháp nhân 
tú Lagrange có thể được tim thấy tại Phụ Lục A. 


0 
0 
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25.2 Hám dói ngáu Lagrange 
25.2.1 Lagrangian 
Vái bai toán tói uu tóng quát 
x" = arg min fo(x) 
thoa mam f(x) <0, $—1,2,..m (25.4) 
h;(x)=0, j=1,2,...,p 


với miền xác dinh D = (n^ ¿dom f;) N (P5. dom/h;). Chú ý rằng, chúng ta đang không giả 
sử về tính chất lồi của hàm tối ưu hay các hàm ràng buộc ở đây. Giả sử duy nhất ở đây là 
D Æ Ü (tập rỗng). Bài toán tối uu này còn được gọi là bài toán chính (primal problem). 


Lagrangian cũng được xây dung tương tự với mỗi nhân tú Lagrange cho một (bát) phuong 
trình ràng buộc: 


m p 
L(x, A, v) = fo(x) ux > A.fi(X) T ` vjh;(x) 
i=1 j=1 
với A = [Ài,Àa,...; Aml; V = [ri V2, . . - v] là các vectors và được gọi là bién đối ngẫu (dual 


variables) hoác vector nhân tú Lagrange (Lagrange multiplier vectors). Lúc này néu bién 
chính x € R” thì tổng số bién của hàm số này sé là n + m + p. 


25.2.2 Hàm dói ngãu Lagrange 


Hàm đối ngẫu Lagrange(the Lagrange dual function) của bài toán tôi ưu (hoặc gon là ham 
số đối ngẫu) (25.4) là một ham của các biến đối ngẫu A và v, được định nghĩa là giá trị nhỏ 
nhất theo x của Lagrangian: 


g(A,v) = inf C(x,A,v) = inf [i + Afi DT) (25.5) 


Nếu Lagrangian không bi chặn dưới, ham đối ngẫu tai A, v sẽ lay giá tri —oo. 


Đặc biệt quan trọng: 


e inf được lấy trên miền x € D, tức miền xác định của bài toán (là giao của miền xác định 
của mọi hàm trong bài toán). Miền xác định này khác với feasible set — là tập hợp các 
điểm thoả mãn các ràng buộc. Feasible set là một tập con của miền xác định D. 


e Với mỗi x, Lagrangian là một hàm affine của (A, v), tức là một hàm vừa convex, vừa 
concave. Vậy, hàm đối ngẫu chính là một pointwise infimum của (có thể vô hạn) các hàm 
concave, tức là một hàm concave. Vậy hàm đối ngẫu của một bài toán tối ưu bất 
kỳ là một hàm concave, bất kể bài toán ban đầu có phải là convex hay không. 
Nhắc lại rằng pointwise supremum của các hàm conver là một hàm conver, và một hàm 
là concave nếu khi đổi dấu hàm đó, ta được một hàm convez (xem thêm Mục 23.3.2). 
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25.2.3 Chán dưới của giá tri tối ưu 


Nếu p* là optimal value (giá trị tối ưu) của bài toán (25.4) thì với các biến đối ngẫu A; > 0, Vi 
và v bat ky, chúng ta sẽ có 
ga») & (25.6 


Tính chát này có thé được chứng minh nhu sau. Giá sit xy là một điểm feasible bất kỳ của 
bài toán (25.4), tức thoả mãn các điều kiện ràng buộc f;(xo) € 0, Vi = 1,..., m; h;(Xo) = 
0, Vj =1,...,p, ta sé có 


£L (Xo, A, v) = fo(xo) + 2. Ai fi(Xo) + ` Vjh;(Xo) < fo(xo) 
= "— 


<0 j=1 o 
Vì điều này đúng với mọi Xo feasible, ta sẽ có tính chất quan trọng sau đây: 


ga, v) — inf L(x,A, v) < L(Xo, A, v) < fo(xo). 
xc 
Khi xy — x* (optimal point), fo(xo) = p*, ta suy ra bát dàng thúc (25.6). Bát dàng thúc 
quan trọng này chỉ ra rằng giá trị tối uu của hàm muc tiêu trong dual problem (25.4) không 
nhó hon giá tri lón nhát cúa hàm dói ngàu Lagrange g(A, v). 
25.2.4 Ví du 
Ví du 1: Xét bài toán tói uu 
x = arg min z? + 10sin(x) + 10 


(25.7) 
thoả mãn: (x — 2)? < 4 


Với bài toán này, miền xác dinh D = R nhưng feasible set là 0 < x < 4. Đồ thị của hàm 
mục tiêu được minh hoa bởi đường dám màu lam trong Hinh 25.1a. Hàm số ràng buộc 
h(z) = (x — 2)? — 4 được cho bởi đường nét đứt màu luc. Optimal value của bài toán này có 
thể được nhận ra là điểm trên đồ thị có hoành độ bằng 0 (là điểm nhỏ nhất trên đường màu 
lam trong đoạn [0, 4]). Chú ý rằng hàm mục tiêu ở day không phải là hàm lồi nên bài toán 
tối ưu này cũng không phải là lồi, mặc dù hàm bất phương trình ràng buộc f,(x) là lồi. 


Lagrangian của bài toàn này có dang 
L(x, A) = z? + 10sin(z) + 10 + A((z — 2)? — 4) 


Các đường dấu chấm màu đỏ trong Hình 25.1a là các đường ứng với các A khác nhau. Vùng 
bi chặn giữa hai đường thắng đứng màu den thể hiện miền feasible của bài toán tối ưu. 


Với mỗi A, dual function được định nghĩa là: 


g(A) = inf (x? + 10sin(z) + 10+ A((z—2)? —4)), A>0. 
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(a) 


Hinh 25.1: Ví du vé dual function. (a) Đường màu lam đậm thể hiện hàm mục tiêu. Đường nét 
đứt mà lục thể hiện hàm số ràng buộc. Các đường nét đứt màu đó thể hiện dual function ứng 
với các A khác nhau. (b) Đường nét đứt thể hiện giá trị tôi ưu của bài toán . Đường mau đỏ thể 
hiện dual function. Với mọi A, giá trị của hàm dual function nhỏ hơn hoặc bằng giá trị tôi ưu của 
bài toán gốc (source code cho hình vẽ này có thể được tìm thấy tại https: // goo.gl/jZiRCp.). 


Từ Hinh 25.1a, ta có thể thấy ngay rằng với các A khác nhau, giá của g(A) hoặc tai điểm 

có hoành độ bằng 0 của đường màu lam, hoặc tai một điểm thấp hon điểm đó. Đồ thị của 

hàm ø(A) được cho bởi đường liền màu đỏ ở Hình 25.1b. Đường nét đứt màu lam thể hiện 

optimal value của bài toán tôi ưu ban đầu. Ta có thể thấy ngay hai điều: 

e Dường liền màu đỏ luôn nằm dưới (hoặc có đoạn trùng) với đường nét đứt màu lam. 

e Hàm g(A) có dạng một hàm concave, tức nếu ta lát đồ thị này theo chiều trên-dưới thì 
đạt được đồ thị của một hàm convex. 

Source code cho Hình 25.1 có thể được tìm thấy tại https:// goo.gl/ jZiR Cp. 

Ví dụ 2 Xét một bài toán linear programming: 


a = arg min cx 
x 


thoả mãn: Ax =b (25.8) 
x0 
Hàm ràng buộc cuối cùng có thé được viết lại là: ƒ;(x) = —2;,4 = 1,...,n. Lagrangian của 


bài toán này là 


£(x,À,U) = cx — Y ^ Xi + (Ax — b) = -bv + (c + ATv — A)7x 


i=1 
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(đừng quên điều kiện A > 0.) Dual function của nó là 


g(A,v) = inf L(x, A, v) = -bv + inf(c + ATv — A)?x (25.9) 


Nhận thấy rằng một hàm tuyến tính d"x của x bi chán dưới khi vào chỉ khi d = 0. Vi chỉ 
nếu một phần tử d; của d khác 0, ta chỉ cần chọn z; rất lớn và ngược dấu với d;, ta sẽ có 
một giá trị nhỏ tuỳ ý. Nói cách khác, g(A, v) = —oo trừ khi c + A7 — A =0. Tóm lại, 


—b† nếu c+ AT—À=0 


—00 o.w. Can 


g(A.v) = l 


Trường hợp thứ hai khi g(A,v) = —œ chúng ta sẽ gặp rất nhiều sau này. Trường hợp này 
không nhiều thú vị vì hiển nhiên g(A, v) < p*. Vi mục đích chính là đi tìm chặn dưới của p* 
nên ta sẽ chỉ quan tâm tới các giá trị của A và v sao cho g(A, v) càng lớn càng tốt. Trong 
bài toán này, ta sé quan tâm tới các A và v sao cho c + A”— A =0. 


25.3 Bài toán đối ngẫu Lagrange 


Với mỗi cáp (A, v), hàm đối ngẫu Lagrange cho chúng ta một chặn dưới cho optimal value 
p* của bài toán góc (25.4). Câu hỏi đặt ra là: với cáp giá trị nào của (A, 1), chúng ta sẽ có 
một chặn dưới tốt nhất của p*? Nói cách khác, ta đi cần giải bài toán 


A*,v* = arg max g(A, v) 
AP (25.11) 
thoả man: A = 0 


Quan trong, vi ham g(A,v) là concave và ham rang buộc ƒ;(À) = —À; là các ham convez. 
Vay bai toán (25.11) chính là một bai toán convex. Vì vậy trong nhiều trường hợp, lời giải 
có thể dé tìm hơn là bài toán gốc. Chú ý rằng, bài toán tối uu này là convex bất ké bài toán 
gốc (25.4) có là convex hay không. 


Bài toán tối ưu này dược gọi là bài toán đối ngẫu Lagrange (Lagrange dual problem) ứng 
với bài toán chính (25.4). Ngoài ra, có một khái niệm nữa được gọi lá dual feasible tức là 
feasible set của bài toán đối ngẫu, bao gồm điều kiện A > 0 và điều kiện ẩn g(A, v) > —oo 
(điều kiện này được thêm vào vì ta chỉ quan tâm tới các (A, v) sao cho hàm mục tiêu của 
bài toán đối ngẫu càng lớn càng tốt). Nghiệm của bài toán đối ngẫu (25.11), được ký hiệu 
là (A*,*), được goi là dual optimal hoặc optimal Lagrange multipliers. 


Chú ý rằng điều kiện an g(A, v) > —oo, trong nhiều trường hợp, cũng có thể được viết cụ 
thể. Quay lại với ví dụ phía trên, điệu kiện an có thể được viết thành c+ A”— A = 0. Đây 
là một hàm affine. Vì vậy, khi có thêm ràng buộc này, ta vẫn được một bài toán lồi. 


25.3.1 Weak duality 


Ký hiệu giá trị tối ưu của bài toán đối ngẫu (25.11) là d*. Theo (25.6), ta đã biết rằng 
d* < p*. Tính chất đơn giản này được gọi là weak duality. Tuy đơn giản nhưng nó cực kỳ 
quan trọng. 
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Ta quan sát thấy hai điều: 


e Nếu bài toán gốc không bị chặn dưới, tức p* = —oo, ta phải có d* = —oo, tức là bài toán 
đối ngẫu Lagrange là infeasible (tức không có giá trị nào thoả mãn ràng buộc). 


e Nếu hàm mục tiêu trong bài toán đối ngẫu không bi chặn trên, tức d* = +00, chúng ta 
phải có p* = +00, tức bài toán gốc là infeasible. 


Giá trị p* — d* được gọi là optimal duality gap (dịch thô là khoảng cách đối ngẫu tối uu). 
Khoảng cách này luôn luôn là một số không âm. 


Đôi khi có những bài toán (lồi hoặc không) rất khó giải, nhưng ít nhất nếu ta có thể tìm 
được d*, ta có thể biết được chặn dưới của bài toán gốc. Việc tìm d* thường khả thi vì bài 
toán đối ngẫu luôn luôn là lồi. 


25.3.2 Strong duality và Slater's constraint qualification 


Néu dàng thúc p* — d* thoà màn, the optimal duality gap báng khóng, ta nói ráng strong 
duality xày ra. Lúc này, viéc giái bài toán dói ngáu dá giúp ta tim dugc chính xác giá tri tói 
uu cúa bài toán góc. 


Thát khóng may, strong duality khóng thuóng xuyén xáy ra trong các bài toán tói uu. Tuy 
nhién, néu bài toán góc là lói, túc có dang 


x = arg min fo(x) 


thea man: f(x) € 0,9 = 1,2,...,m (25.12) 
Ax=b 
trong đó fo, f1,..., fm là các hàm lồi, chúng ta thuóng (không luôn luôn) có strong duality. 


Có rất nhiều nghiên cứu thiết lập các điều kiện, ngoài tính chất lồi, để strong duality xảy 
ra. Những điều kiện đó thường có tên là constraint qualifications. 


Một trong các constraint qualification đơn giản nhất là Slater's condition. 


Định nghĩa 25.1: Strictly feasible 


Một điểm feasible của bài toán (25.12) được gọi là strictly feasible nếu: 


He) <0 ô=1,3.::./n, Axe=eb 


tức các dấu bằng trong các bát dang thức ràng buộc không xảy ra. 


Định lý 25.1: Slater 


Nếu tồn tại một điểm strictly feasible (bài toán góc là lồi) thì strong duality xảy ra. 


Machine Learning cơ bản https: // machinelearningcoban. com 


323 CHUONG 25. DUALITY 


Điều kiện khá đơn giản sẽ giúp ích cho nhiều bài toán tối ưu sau này. 

Chú ý: 

e Strong duality không thường xuyên xảy ra. Với các bài toán lồi, việc này xảy ra thuong 
xuyên hơn. Tón tại những bài toán lồi mà strong duality không xảy ra. 


e Có những bài toán không lồi nhưng strong duality vẫn xảy ra. Ví dụ như bài toán trong 
Hình 25.1 phía trên. 


25.4 Các điều kiện tối ưu 
25.4.1 Complementary slackness 


Giả sử rang strong duality xảy ra. Gọi x* là một điểm optimal của bài toán gốc và (A*, *) 
là cặp điểm optimal của bài toán đối ngẫu. Ta có 


fo(x^) = g(A*,v") (25.13) 


= inf [sos + Za A; f(x) + 2 D) (25.14) 


m p 
< fo(x*) + 3 X fi) + Mo vihy(x") (25.15) 

i=l j=l 
< fo(x") (25.16) 
Dang thức (25.13) xảy ra do strong duality. Dang thức (25.14) xảy ra do định nghĩa của 
hàm đối ngẫu. Bất đẳng thức (25.15) là hiển nhiên vì infimum của một hàm nhỏ hơn giá tri 
của hàm đó tại bất kỳ một điểm nào khác. Bất đẳng thức (25.16) xảy ra vì các ràng buộc 


fi(x*) € 0,A; > 0,7 = 1,2,...,m và h;(x*) = 0. Từ đây có thể thé rằng dấu đẳng thức 
ở (25.15) và (25.16) phải đồng thời xáy ra. Và ta lại có thêm hai quan sát thú vị nữa: 


e x* chính là một điểm optimal của g(A*, v*). 


e Thú vị hơn, ^ M fi(x*) = 0. Vì Aj > 0, f; < 0 nên mỗi phan tử A; ƒ;(x*) < 0. Từ đó ta 
i=1 
phat có A fi(x*) = 0, Vi = 1,2,..., m. 


Điều kiện cuối cùng này được gọi là complementary slackness. Từ đây có thể suy ra 


A > 0 => fix") =0 (25.17) 
ie’) < USA =0 (25.18) 


Túc ta luón có mót trong hai gid tri nay bang 0. 


Machine Learning co ban https: // machinelearningcoban. com 


CHUONG 25. DUALITY 324 


25.4.2 Các điều kiện tôi uu KKT 

Ta vẫn giả sử rằng các hàm đang xét có đạo hàm và bài toán tối ưu không nhất thiết là lồi. 

Điều kiện KKT cho bài toán không lồi 

Giả sử rằng strong duality xây ra. Gọi x* và (A*, U*) là bát kỳ primal và dual optimal points. 

Vì x* tối ưu hàm khả vi L(x, A*, *), ta có đạo hàm của Lagrangian tại x* phải bằng 0. 

Điều kiện Karush-Kuhn-Tucker (KKT) nói rằng x*, A*, v* phải thoả mãn các điều kiện 
fi(x*) < 0,i e2 8 


(25.19) 
h;(x*) =0,j7 =1,2,...,p (25.20) 
M>0,i=1,2,...,m (25.21) 
» (25.22) 


2 


Ai fil 
Vx.fo(x*) + Ya Va fi(x*) + "Ys V„h¿( (25.23) 


i=l 


=0,1 = 1,2,..., m 


Day là điều kiên cần để x*, A*, v* là nghiệm của primal problem và dual problem. 

Các điều kiên KKT cho bài toán lồi 

Với các bài toán lồi và strong duality xảy ra, các điệu kiện KKT phía trên cũng là điều 
kiện đủ. Vậy với các bài toán lồi với hàm mục tiêu và hàm ràng buộc là khả vi, bất kỳ 
bộ (x+, A*, v*) nào thoả mãn các điều kiện KKT đều là primal và dual optimal của primal 
problem và dual problem. 


Cán nhó 


Với một bài toán lồi va điều kiện Slater thoả mãn (suy ra strong duality) thà các điều 
kiện KKT là các điều cần vá đủ của nghiệm. 


Các điều kiện KKT rất quan trọng trong tối ưu. Trong một vài trường hợp đặc biệt (chúng 
ta sẽ thấy trong Phần Support Vector Machine), việc giải hệ (bất) phương trình các điều 
kiện KKT là khả thi. Rất nhiều các thuật toán tối ưu được xây dựng giả trên việc giải hệ 
điều kiện KKT. 
Ví du: Equality constrained convex quadratic minimization. Xét bài toán: 
1 
x = arg min 5x Px +q’x+r 
thoả mãn: Ax=b (25.24) 


trong đó P là một ma trận nửa nửa xác định dương. Lagrangian của bài toán này là 


1 
L(x, v) = 5x Px +qˆx+r+T(Ax—b) 
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Diéu kién KKT cho bài toán này là: 
Ax" =b (25.25) 
Px* - q-- AT*=0 (25.26) 


Phương trinh thứ hai chính là phuong trinh dao hàm của Lagrangian tại x* bằng 0. Hệ 
phương trinh này có thé được viết lại dưới dang 


P A7] [x] [-q 
A 0 v*| |b 

Day là mót phuong trinh tuyén tính don gián! 

25.5 'Tóm tát 

Giá sú ráng các hàm só déu khá vi. 

e Các bài toán tối ưu với chỉ ràng buộc là dàng thức có thé được giải quyết bằng phương 
pháp nhân tử Lagrange. Ta cũng có định nghĩa về Lagrangian. Điều kiện cần để một điểm 
là nghiệm của bài toán tối ưu là nó phải làm cho đạo hàm của Lagrangian bằng 0. 

e Với các bài toán tối uu có thêm ràng buộc là bát đẳng thức (không nhất thiết là lồi), 
chúng ta có Lagrangian tổng quát và các bién Lagrange A, v. Với các giá trị (A,v) có 
định, ta có định nghĩa về hàm đối ngẫu Lagrange (Lagrange dual function) g(A, v) 
được xác định là infimum của Lagrangian khi x thay đổi trên miền xác định của bài toán. 

e Feasible set là tập con của domain set (tập xác định). 

e Với mọi (A,v), g(A,v) € p*. 


e Hàm số g(A, v) là conver bất kể bài toán tối uu gốc có conver hay không. Hàm số này 
được gọi là dual Lagrange fuention hay hàm đối ngẫu Lagrange. 


e Bai toán di tim giá trị lớn nhất của hàm đối ngẫu Lagrange với điều kiện A > 0 được 
gọi là bài toán đối ngẫu (dual problem). Bài toán này là convex bất ké bài toán góc có 
conver hay không. 


e Gọi giá trị tối ưu của bài toán đối ngẫu là d*, ta có d* < p*. Day được gọi là weak duality. 


e Strong duality xây ra khi d* = p*. Thường thi strong duality không xảy ra, nhưng với các 
bài toán lồi thì strong duality thường (không luôn luôn) xảy ra. 


e Nếu bài toán là lồi và điều kiện Slater thoả mãn, thì strong duality xây ra. 


e Nếu bài toán lồi và có strong duality thì nghiệm của bài toán thoả mãn các điều kiện 
KKT (điều kiện cần và đủ). 


e Rất nhiều các bài toán tối ưu được giải quyết thông qua KKT conditions. 
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Phần VIII 


Support vector machines 


Chuong 26 


Support vector machine 


26.1 Giới thiệu 


Support vector machine (SVM) là một trong những thuật toán phân lớp phổ biến và hiệu 
quả. Y tưởng đứng sau SVM khá đơn giản, nhưng để hiểu được cách tìm nghiệm của nó, 
chúng ta cần một chút kiến thức về tối ưu và duality. 


Trước khi đi vào phần ý tưởng chính của SVM, chúng ta cùng ôn lại kiến thức về hình học 
giải tích trong chương trình phổ thông. 
26.1.1 Khoảng cách từ một điểm tới một siêu mặt phẳng 
Trong không gian hai chiều, khoảng cách từ một điểm có toa độ (xo, yo) tới đường thẳng có 
phương trình w,1 + wzy + b = 0 được xác định bởi 

|wiro + wayo + b| 


2 2 
y Wy + w) 


Trong không gian ba chiều, khoảng cách từ một điểm có toa độ (xo, yo, zo) tới một mát phẳng 
có phương trình wx + way + waz + b = 0 được xác định bởi 


[12:9 + waYo + W320 + b| 
2 2 2 
y Wi + wa + W3 


Hon nữa, nếu bỏ dấu trị tuyệt đối ở tử só, ta có thể xác định được điểm đó nằm về phía nào 
của. đường thang hay mặt phẳng đang xét. Những điểm làm cho biểu thức trong dau giá tri 
tuyệt đối mang dấu dương nằm về cùng một phía (tạm gọi là phía đương), những điểm làm 
cho giá trị này mang dấu âm nằm về phía còn lại (gọi là phía âm). Những điểm nằm trên 
đường thang/mat phẳng sẽ làm cho tử só có giá trị bằng 0, tức khoảng cách bằng 0. 


Các công thức này có thể được tổng quát lên cho trường hợp không gian đ chiều. Khoảng 
cách từ một điểm (vector) có toa độ (#o,#so,...,#ao) tới siêu mặt phẳng (hyperplane) có 
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Hình 26.1: Hai lớp dữ liệu đỏ và 
xanh là linearly separable. Có vô sô 
các đường thằng có thể phân tách 
chính xác hai lớp dữ liệu này (Xem 
thêm Chương 13-Perceptron learn- 
¡ng algorithm). 


T2 


phương trinh 001# + 00a#a +--+ + Waza + b = 0 được xác định bởi 


[10110 + 1U2Z20 + +++ + tUa#ao + b| u |w xo + b| 
vw? tue + - - - + 102 lwll 
VỚI Xo = |0, T20, - - - , tao]. , W = [w1, wo, ... , wal”. 


26.1.2 Nhắc lai bài toán phân chia hai lớp dữ liệu 


Chúng ta cùng quay lại với bài toán phân lớp như đã dé cập trong Chương 13 — Perceptron 
Learning Algorithm (PLA). Giả sử rằng có hai lớp dữ liệu được mô tả bởi các điểm (feature 
vector) trong không gian nhiều chiều, hơn nữa, hai lớp dit liệu này là linearly separable, tức 
tồn tại một siêu phẳng phân chia chính xác hai lớp đó. Hãy tìm một siêu phẳng phân chia 
hai lớp đó đó, tức tất cả các điểm thuộc một lớp nằm về cùng một phía của siêu phẳng đó 
và ngược phía với toàn bộ các điểm thuộc lớp còn lại. Chúng ta đã biết rằng, thuật toán 
PLA có thể làm được việc này nhưng nó có thể cho chúng ta vô số nghiệm như Hình 26.1. 


Có một câu hỏi được đặt ra ở đây. Trong vô số các mặt phân chia đó, đâu là mặt tốt nhất. 
Trong ba đường thắng minh họa trong Hình 26.1, có hai đường thắng khá lệch về phía lớp 
màu đỏ. Điều này có thể khiến cho lớp màu đỏ không vui vi lãnh thổ bị lán nhiều quá. Việc 
này có thể khiến cho các điểm màu đỏ trong tương lai bị phân lớp lỗi thành điểm màu xanh. 
Liệu có cách nào để tìm được đường phân chia mà cả hai lớp đều cảm thấy công bằng và 
hạnh phúc nhất hay không? 


Để trả lời câu hỏi này, chúng ta cần tìm một tiêu chuẩn để đo sự hạnh phúc của mỗi lớp. 
Nếu ta định nghĩa múc độ hạnh phúc của một lớp tỉ lệ thuận với khoảng cách gan nhất từ 
một điểm của lớp đó tới đường /mặt phân chia, ở Hình 26.2a, lớp màu đỏ sẽ không được hanh 
phúc cho lắm vì đường phân chia gần nó hơn lớp màu xanh rất nhiều. Chúng ta cần một 
đường phân chia sao cho khoảng cách từ điểm gần nhất của mỗi lớp (các điểm được khoanh 
tròn) tới đường phân chia là như nhau, như thế thì mới công bằng. Khoảng cách như nhau 
này được gọi là bién hoặc lề (margin). 


Đã có công bằng rồi, chúng ta cần thinh tượng nữa. công bằng mà ca hai đều kém hạnh phúc 
như nhau thì chua phải là thinh vugng cho lắm. 
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T2 


(a) (b) 


Hình 26.2: Y tưởng của SVM. Margin của một lóp được định nghĩa là khoảng cách từ các điểm 
gần nhất của lớp đó tới mặt phân chia. Margin của hai lớp phải bằng nhau và lớn nhất có thé. 


Xét tiếp Hình 26.2b khi khoảng cách từ đường phân chia tới các điểm gần nhất của mỗi lớp 
là như nhau. Xét hai cách phân chia bởi đường nét liền màu đen và đường nét đứt màu lục, 
đường nào sẽ làm cho cá hai lớp hanh phúc hơn? Rõ ràng đó phải là đường nét liền màu đen 
vì nó tao ra một margin rộng hon. 


Việc margin rộng hơn sẽ mang lại hiệu ứng phân lớp tốt hơn vì sự phân chia giữa hai lớp là 
rạch rời hơn. Bài toán tối ưu trong SVM chính là bài toán đi tìm đường phân chia sao cho 
margin giữa hai lớp là lớn nhất. Đây cũng là lý do vì sao SVM còn được gọi là maximum 
margin classifier. Nguón góc của tên gọi support vector machine sẽ sớm được làm sáng tó. 


26.2 Xây dựng bài toán tối ưu cho SVM 


Giả sử rằng các cặp dữ liệu trong tập huấn luyện là (x, yi), (Xa, 9a),..., (XN, Yy) vói vector 
x; € R? thể hiện đầu vào của một điểm dữ liệu và y; là nhãn của điểm dữ liệu đó, d là só 
chiều của dữ liệu và N là số điểm dữ liệu. Giả sử rằng nhãn của mỗi điểm dữ liệu được xác 
định bởi y; = 1 hoặc y; = —1 giống nhu trong PLA. 


Để dễ hình dung, chúng ta cùng làm với các ví dụ trong không gian hai chiều. Giả sử 
rằng các điểm màu xanh có nhãn là 1, các điểm tròn đỏ có nhãn là -1 và mặt w"x +b = 
10181 + 00a#a +b = 0 là mặt phan chia giữa hai lớp (Hình 26.3). Hơn nữa, lớp màu xanh nằm 
về phía dương, lớp màu đỏ nằm vé phía âm của mặt phân chia. Nếu ngược lại, ta chỉ cần 
đổi dẫu của w và b. Ta cần di tìm siêu phẳng được mô tả bởi các hệ số w và b. 


Ta quan sát thấy một điểm quan trọng như sau. Với cặp dữ liệu (xạ, „) bất kỳ, khoảng cách 
từ điểm đó tới mặt phân chia là 
yn (w"x,, + b) 
IIwl|› 


Điều này có thể được nhận thấy vì theo giả sử ở trên, y, luôn cùng dấu với phía của xn. Từ 
đó suy ra y, cùng dấu với (w? x,, + b), vì vậy tử số luôn là một đại lượng không âm. Với mặt 
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Hinh 26.3: Giá sú mát phán chia 


oe có phương trinh wx +b = 0. 
"^ x Không mật tính tông quát, băng 


cách nhân các hệ só w và b với 
các hằng số phù hợp, ta có thể 
giả sử rằng điểm gần nhất của lớp 
màu xanh tới mặt này thoả mãn 
w"x+b = 1. Khi đó, điểm gần nhất 
của lớp đỏ thoả màn w/w + b = 
—]. 


phân chia này, margin được tính là khoảng cách gần nhất từ một điểm (trong cả hai lớp, vì 
cuối cùng margin của cả hai lớp sẽ như nhau) tới mặt đó, tức là 


a(WTx„ + b) 


margin = min 
n || wl 


Bài toán tối ưu của SVM chính là việc tim w và b sao cho margin này đạt giá trị lớn nhất: 


T 
(w,b) = arg max {mịn ng) = arg max Ue: min y, (w? xn + »i (26.1) 


w, wè | ||Wl|› 


Có một nhận xét quan trong là nếu ta thay vector hệ số w bởi kw và b bởi kb trong đó k là 
một hằng số dương bất kỳ thì mặt phân chia không thay đổi, tức khoảng cách từ từng điểm 
đến mặt phân chia không đổi, tức margin không đổi. Vì vậy, ta có thể giả sử 


y, (wTx, +b) =1 
với những điểm nằm gần mặt phân chia nhất (được khoanh tròn trong Hình 26.3). 
Như vậy, với mọi n ta luôn có 

a(WTx„ +b) > 1 


Vậy bài toán tối ưu (26.1) có thể đưa về bài toán tối ưu có ràng buộc có dạng 


w,b) = arg max —— 
) w,b lÌwl|› (26.2) 


thoả mãn: „(wTx„ + b) > 1,Yn = 1,2,..., N 


Bằng một biến đổi đơn giản, ta có thể đưa bài toán này về dạng 


1 
(w, b) = arg min z will 


(26.3) 
thoả mãn: 1 — y, (wx, +b) < 0, Vn = 1,2,...,N 


Ó đây, chúng ta đã lấy nghịch đảo hàm muc tiêu, bình phương nó để được một hàm khả vi, 


và nhân với 3 để biểu thức dao hàm đẹp hon. 
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Có một quan sát rất quan trọng. Trong bài toán (26.3), hàm mục tiêu là một norm, 
nên là một hàm lồi. Các hàm bất đẳng thức ràng buộc là các hàm tuyến tính theo w và 
b, nên chúng cũng là các hàm lồi. Vậy bài toán tối ưu (26.3) có hàm mục tiêu là lồi, và 
các hàm ràng buộc cũng là lồi, nên nó là một bài toán lồi. Hơn nữa, nó là một quadratic 
programming vì hàm mục tiêu là một quadratic form. Thậm chí, hàm mục tiêu là strictly 
conver vi |w|2 = w"Iw và mathbf I là ma trận đơn vi — là một ma tràn xác định duong. 
Tit dày có thé suy ra nghiém cho SVM là duy nhát. 


Đến đây thi bài toán này có thé giải được bằng các công cu hỗ trợ tìm nghiệm cho quadratic 
programing, ví dụ CVXOPT. Tuy nhiên, việc giải bài toán này trở nên phức tạp khi số chiều 
d của không gian dữ liệu và số điểm dữ liệu N tăng lên cao. Thay vào đó, người ta thường 
giải bài toán đối ngẫu của bài toán này. Thứ nhất, bài toán đối ngẫu có những tính chất thú 
vị hơn khiến nó được giải một cách hiệu quả hơn. Thứ hai, trong quá trình xây dựng bài 
toán đối ngẫu, người ta thấy rằng SVM có thể được áp dụng cho những bài toán mà dữ liệu 
không nhất thiết linearly separable, như chúng ta sẽ thấy ở các chương sau của phần này. 


Xác định lớp cho một điểm dữ liệu mới 


Sau khi đã tìm được mặt phân cách w?x + b = 0, nhãn của bát kỳ một điểm nào sẽ được 
xác định đơn giản bằng 
class(x) = sgn(w? x + b) 


26.3 Bài toán dói ngàu cúa SVM 


Nhác lai rằng bài toán tối ưu (26.3) là một bài toán lồi. Chúng ta biết rằng nếu một bai 
toán lồi thoả mãn tiêu chuẩn Slater thì strong duality thoả mãn (xem Mục 25.3.2. Và nếu 
strong duality thoả mãn thì nghiệm của bài toán chính là nghiệm của hệ điều kiện KKT 
(xem Mục 25.4.2). 


26.3.1 Kiểm tra tiêu chuẩn Slater 
Trong bước này, chúng ta sẽ chứng minh bài toán tối ưu (26.3) thoả mãn điều kiện Slater. 
Điều kiện Slater nói rằng, nếu tồn tại w,b thoả mãn: 
1 — yn(w? x, +b) «0, Vn=1,2,...,N 
thi strong duality thoá man. Viéc kiém tra nay khong qua phúc tap. Vi ta biét rang luón 
luôn có một siêu phẳng phân chia hai lớp nếu hai lớp đó là linearly separable, tức bài toán 
có nghiệm, nên feasible set của bài toán tối ưu (26.3) phải khác rỗng. Tức luôn luôn tồn tại 
cặp (wo, bọ) sao cho 
1 — y,(wixXn +o) <0, VYn=1,2,..:,N (26.4) 

S 2 — y,(2wa Xn + 2b) <0, Wn =1,2,...,N (26.5) 
Vay ta chỉ cần chon w = 2wy và bı = 2bạ, ta sé có: 

1 — y,(wi x, +61) <-1<0, Yn =1,2,...,N 


Từ đó suy ra điều kiện Slater thoả mãn. 
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26.3.2 Lagrangian của bài toán SVM 
Lagrangian cüa bài toán (26.3) là 
£(w, b, A) = Il DIE — ys (wx, + b)) (26.6) 
với A = [M1,A2,..., An]? và An >0, Vn = 1,2,..., N. 
26.3.3 Hàm dói ngàu Lagrange 
Theo dinh nghia, hàm dói ngàu Lagrange là 
9(A) = min £(w, b, A) 


với A > 0. Việc tim giá trị nhỏ nhất của hàm này theo w và b có thé được thuc hiện bằng 
cách giải hé phuong trình dao hàm của L(w, b, A) theo w và b bàng 0: 


N N 

VwL(w,b, A) = w — So ÀnnXu = 0 > w =>) AnYnXn (26.7) 
n=1 n=1 

ViL(w, b, A) = Yu =0 (26.8) 


Thay (26.7) và (26.8) vào (26.6) ta thu được g(A)!: 


N LONG 
= ` Àn = 5 2 > DI e Xm (26.9) 
n=1 n=1 m=1 


Hàm g(A) trong (26.9) là hàm só quan trọng nhất trong SVM, chúng ta sẽ thấy rõ hon 
trong chương Kernel SVM. 


Bằng cách ký hiệu ma trận 
V= Iuixi, U2Xa2....- ,YNXN] 


và vector 1 = [1,1,...,1]7, ta có thể viết lại g(A) dưới dang? 
1 
g(A) = -5A V'VA 3- 1* X. (26.10) 


Nếu đặt K = VTV thi K là một ma tràn nửa xác định duong. That vậy, với moi vector A, 
ta có ATKA = ATVTVA = ||VA|2 > 0. Vậy g(A) = —ZA7KA + 17A là một hàm concave. 


Phần chứng minh coi như một bài tập nhỏ cho bạn đọc. 
2 Phần chứng minh coi như một bài tập nhỏ khác cho bạn đọc. 
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26.3.4 Bài toán đối ngẫu Lagrange 


Từ đó, kết hợp hàm đối ngẫu Lagrange và các điều kiện ràng buộc của À, ta sẽ thu được bài 
toán đối ngẫu Lagrange của bài toán (26.3) có dạng 


A =arg max g(A) 


thoả màn: A = 0 
N 
» An?ƒ„ = 0 
n=1 


Rang buộc thứ hai được lấy từ (26.8). Day là một bài toán lồi vì ta dang di tìm giá trị lớn 
nhất của một hàm mục tiêu là concave trên một polyhedron?. Hơn nữa, bài toán này là một 
quadratic programming và cũng có thể được giải bằng các thư viện như CVXOPT. 


(26.11) 


Trong bài toán đối ngẫu này, số lượng tham số phải tìm là N, là chiều của A, cũng chính là 
số điểm dữ liệu. Trong khi đó, với bài toán góc (26.3), số tham số phải tìm là d + 1, là tổng 
số chiều của w và b, tức số chiều của mỗi điểm dữ liệu cộng với 1. Trong rất nhiều trường 
hợp, số điểm dữ liệu có được trong tập huấn luyện lớn hơn số chiều dữ liệu rất nhiều. Nếu 
giải trực tiếp bằng các công cụ giải quadratic programming, có thể bài toán đối ngẫu còn 
phức tạp hơn (tốn thời gian hơn) so với bài toàn gốc. Tuy nhiên, điều hấp dẫn của bài toán 
đối ngẫu này đến từ cấu trúc đặc biệt của hệ điều kiện KKT. Ngoài ra, dạng đặc biệt của 
bài toán đối ngẫu giúp các nhà khoa học đã phát triển thêm một dạng tổng quả của SVM, 
khiến nó hoạt động cả với trường hợp dữ liệu hai lớp là không linear separable. Chúng ta sẽ 
bàn kỹ tới trường hợp này trong chương Kernel SVM. 


26.3.5 Điều kiện KKT 


Quay trở lại bài toán, vi đây là một bài toán lồi và strong duality thoả mãn, nghiệm của bài 
toán sẽ thoả mãn hệ điều kiện KKT sau đây với biến số là w, b và À. 


1—„(w?x¿+) <0, Yn =1,2,...,N (26.12) 
Ay > 0, Yn=1,2,..., N (26.13) 
An(1— „(wTxạ +b)) =0, Vn=1,2,...,N (26.14) 
N 
w= ` AnYnXn (26.15) 
n=1 
N 
53. (26.16) 
n=1 


Trong những điều kiện trên, điều kiện (26.14) là thú vị nhất. Từ đó ta có thể suy ra ngay, với 
n bát kỳ, hoặc A, = 0 hoặc 1— y, (w? x, +b) = 0. Trường hợp thứ hai chính là w? x, +b = yn, 
với chú ý rằng y? = 1, Vn. 


3 Không chỉ riêng với bài toán tối ưu của SVM, các bài toán đối ngẫu luôn là bài toán lồi. Ở đây chúng ta chỉ khẳng 
định lại tính chất đó. 
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Những điểm thoả màn (26.3.5) chính là những điểm nằm gần mặt phân chia nhất, là những 
điểm được khoanh tròn trong Hình 26.3. Hai đường thắng w”x„ + b = +1 tua lên các điểm 
thoả mãn (26.3.5). Những điểm (vector) thoả mãn (26.3.5) còn được gọi là các support vector. 
Và từ đó, cái tên support vector machine ra đời. 


Một quan sát khác, số lượng những điểm thoả mãn (26.3.5) thường chiếm số lượng rất nhỏ 
trong số điểm của tập huấn luyện. Chỉ cần dựa trên những support vector này, chúng ta 
hoàn toàn có thể xác định được mặt phân cách cần tìm. Nói cách khác, hầu hết các À„ bằng 
0, tức A là một sparse vector. Support vector machine vì vậy còn được xếp vào sparse models. 
Các sparse models thường có cách giải hiệu quả hơn các mô hình tương tự với nghiệm là 
đense (hầu hết các phần tử khác 0). Đây chính là lý do thứ hai của việc bài toán đối ngẫu 
SVM được quan tâm nhiều hơn là bài toán gốc. 


Tiếp tục phân tích, với những bài toán có số điểm dữ liệu N nhỏ, ta có thể giải hệ điều 
kiện KKT phía trên bằng cách xét các trường hợp A, = 0 hoặc A, % 0. Tổng số trường 
hợp phải xét là 2Ÿ. Với N > 50 (thường là như thé), đây là một con số rất lớn, giải bằng 
cách này sẽ không khả thi. Phương pháp thường được dùng để giải hệ này là sequential 
minimal optimization (SMO) [Pla98, ZYX*08]. Trong phương pháp này, các cặp hai nhân 
tử Lagrange (hai thành phần của A) được chọn ra để tối ưu tại mỗi vòng lặp. Trong các bài 
báo trên, việc chọn cặp như thế nào được nêu rõ. Việc này được thực hiện nhiều lần cho tới 
khi thuật toán hội tụ [Dis06]. 


Chúng ta sẽ không đi sâu tiếp vào việc giải hệ KKT như thế nào, trong phần tiếp theo chúng 
ta sẽ giải bài toán tối uu (26.11) bằng CVXOPT với một ví dụ nhỏ và bằng thư viện sklearn 
(có thể áp dụng cho trường hợp nhiều điểm dữ liệu và nhiều chiều dữ liệu hơn). 


Sau khi tìm được À từ bài toán (26.11), ta có thể suy ra được w dựa vào (26.15) và b dựa 
vào (26.14) và (26.16). Rõ ràng ta chỉ cần quan tâm tới An Æ 0. 


Đặt S = (n: An Æ 0} va Ns là số phần tử của tập S. Theo (26.15), w được tính bằng 


w= » AmYmXm (26.17) 


mES 


Với mỗi n € S, ta có 
1= Yn WT Xn +b) Sb = Yn — wTx,, 


Mặc dù từ chỉ một cáp (xạ, „), ta có thé suy ra ngay được b nếu dà biết w, một phiên bản 
khác để tính b thường được sử dụng và được cho là ổn định hơn trong tính toán (numerically 
more stable) là trung bình cộng? của tat cả các b tính được theo mỗi n € S 


b= x S (Yn — W?Xn) = x y [s mm» ¬ (26.18) 


nes nes mes 


^ Việc này cũng giống như cách làm trong các thí nghiệm vật lý. Dé do một đại lượng, người ta thường thực hiện 
việc đo nhiều lần rồi lấy kết quả trung bình để tránh sai số. Ở đây, về mặt toán học, b phải như nhau theo mọi 
cách tính; tuy nhiên, khi tính toán bằng máy tính, chúng ta có thể gặp các sai số nhỏ. Việc lấy trung bình sẽ làm 
giảm sai số đó. 
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Dé xác định một điểm x mới thuộc vào lớp nào, ta cần xác định dấu của biểu thức 


1 
T E T Eu — T 
wx+b= » AmYmXmX + N; y Yn > Anm Xu 
mes nes mes 
Biểu thức này phu thuộc vào cách tính tích vô hướng giữa x và từng x,, € S. Nhận xét quan 
trọng này sẽ giúp ích cho chúng ta trong chương Kernal SVM. 


26.4 Lập trình tìm nghiệm cho SVM 


Trong mục này, chúng ta cùng tìm nghiệm cho SVM bằng hai cách khác nhau. Cách thứ 
nhất dựa theo bài toán (26.11) và các công thức (26.18) và (26.17). Cách thứ hai sử dụng 
trực tiếp thư viện sklearn. Cách thứ nhất giúp chứng minh tính đúng đắn của các công thức 
đã xây dung. Cách thứ hai sẽ giúp các bạn biết cách áp dụng SVM vào dữ liệu thực té. 


26.4.1 Tìm nghiệm theo công thức 


Trước tiên chúng ta gọi các thư viện cần dùng và tạo dữ liệu giả (dữ liệu này được sử dụng 
trong các hình vẽ từ đầu chương. Ta thấy rằng hai class là linearly separable). 


from __future__ import print, function 
import numpy as np 

np.random.seed(22) 

# simulated samples 


means = [[2, 2], 4, 21) 

cov = [[.3, .2], «25 0:31] 

N = 10 

X0 = np.random.multivariate normal(means[0], cov, N) # blue class data 
X1 = np.random.multivariate normal(means[1], cov, N) # red class data 
X = np.concatenate((X0, X1), axis = 0) # all data 

y = np.concatenate((np.ones(N), np.ones(N)), axis = 0) 4 label 

# solving the dual problem (variable: lambda) 


from cvxopt import matrix, solvers 
V = np.concatenate((X0, -X1), axis = 0) 4 V in the book 


Q = matrix(V.dot(V.T)) 

p = matrix(-np.ones((2*N, 1))) 4 objective function 1/2 lambda^T*Q*lambda - 1^T*lambda 
# build A, b, G, h 

G = matrix(-np.eye(2*N)) 

h = matrix(np.zeros((2*N, 1))) 

A = matrix(y.reshape (1, -1)) 

b = matrix(np.zeros((1, 1))) 

solvers.options[’show_progress’] = False 

sol = solvers.qp(Q, p, G, h, A, b) 

l = np.array(sol['x']) # solution lambda 

# calculate w and b 

w = Xbar.T.dot (1) 

S = np.where(l > le-8) [0] # support set, le-8 to avoid small value of 1. 
b = np.mean(y[S].reshape(-1, 1) X[S,:].dot (w)) 

print('Number of suport vectors = ', S.size) 

print('w= ', w.T) 

print('b = ', b) 
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Hinh 26.4: Minh hoa nghiém tim 


= được bởi SVM. Tất cả các điểm 
"T nám trong vüng có nén màu lam 
: nhat sé dugc phán vào cüng lóp vói 
ma " ee, các diém mau lam. Diéu tuong tu 
m = xảy ra với các điểm nằm trên nền 
E máu dó nhat. 
e 
e 
Tı 


T2 


Két quá: 


Number of suport vectors = 3 
W [[-2.00984382 0.64068336]] 
b 4.66856068329 


Như vậy trong số 20 điểm dữ liệu của cả hai lớp, chỉ có ba điểm nằm trong support set, tức 
có ba điểm đóng vai trò là các support vector. Ba điểm này giúp xây dựng đường thằng phân 
chia với w và b nhu đã tính được. Kết quả tìm được được minh hoa trong Hình 26.4. Đường 
màu đen đậm ở giữa chính là mặt phân cách tìm được bằng SVM. Các đường đen mảnh thể 
hiện các đường thang tua lên các support vector được khoanh tron. 


Các hình vẽ vá source code trong bài có thể được tim thấy tai https: // goo.gl/ VKBgVG. 
26.4.2 Tìm nghiệm theo thư viện 


Chúng ta sẽ sử dụng hàm sklearn.svm.SVC ở đây. Các bài toán thực tế thường sử dụng thư 
viện libsvm được viết trên ngôn ngữ C, có API cho Python và Matlab. 


Nếu dùng thư viện thì sẽ như sau: 


# solution by sklearn 
from sklearn.svm import SVC 


model = SVC(kernel = 'linear', C = 1e5) 4 just a big number 
model.fit(X, y) 


w — model.coef 
b = model.intercept 
print('w= ', wW) 
print('b = ', b) 
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Két quá: 


[[-2.00971102 0.64194082]] 
[ 4.66595309] 


Kết quả này khá giống với kết quả chúng ta tim được ở phần trên, với cách làm đơn giản 
hơn rất nhiều. Có rất nhiều tuỳ chọn cho SVM, trong đó có thuộc tính kernel, các bạn sẽ 
dần thấy trong các chương sau. 


26.5 Tóm tắt và thảo luận 


e Với bài toán phân lớp nhị phân mà hai lớp dí liệu là linearly separable, có vô só các mặt 
phân cách phẳng giúp phân chia hai lớp đó. Khoảng cách gần nhất từ một điểm dữ liệu 
tới mặt phân cách ấy được gọi là margin của bộ phân lớp với ranh giới là mặt phẳng đó. 


e Support vector machine là bài toán đi tìm mặt phân cách sao cho margin có được là lớn 
nhất, đồng nghĩa với việc các điểm dữ liệu có một khoảng cách an toàn tới mặt phân cách. 


e Bài toán tối uu trong SVM là một bài toán convex với hàm mục tiêu là stricly convex, vi 
vậy, local optimum cũng là global optimum của bài toán. Hơn nữa, bài toán tối ưu đó là 
một quadratic programming (QP). 


e Mặc dù có thể trực tiếp giải SVM qua bài toán primal, thông thường người ta thường 
giải bài toán dual. Bài toán dual cũng là một QP nhưng nghiệm là sparse nên có những 
phương pháp giải hiệu quả hơn. 
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Soft-margin support vector machine 


27.1 Giới thiệu 


Giống như perceptron learning algorithm (PLA), support vector machine (SVM) thuán chỉ 
làm việc khi dữ liệu của hai lớp là linearly separable. Một cách tự nhiên, chúng ta cũng 
mong muốn rằng SVM có thể làm việc với dữ liệu gan linearly separable giỗng nhu logistic 
regression đã làm được. 


Xét hai ví dụ trong Hình 27.1. Có hai trường hợp dễ nhận thấy SVM làm việc không hiệu 
quả hoặc thậm chí không làm việc 


1. Trường hợp 1: Dữ liệu van linearly separable như Hình 27.1a nhưng có một điểm nhiễu 
của lớp đỏ ở quá gần so với lớp xanh. Trong trường hợp này, nếu ta sử dụng SVM thuán 
thì sẽ tạo ra một margin rất nhỏ. Ngoài ra, đường phân lớp nằm quá gần với các điểm ở 
lớp xanh và quá xa các điểm thuộc lớp đỏ. Trong khi đó, nếu ta hy sinh điểm nhiễu này 
thì ta được một margin tốt hơn rất nhiều được mô tả bởi các đường nét đứt. SVM thuán 
vì vậy còn được coi là nhay cám vói nhiễu (sensitive to noise). 


2. Trường hợp 2: Dữ liệu không linearly separable nhưng gan linearly separable nhu 
Hinh 27.1b. Trong trường hợp này, không tồn tại đường thang nào hoàn thoàn phân 
chia hai lớp dí liệu, vi vậy bài toán tối uu SVM trở nên vô nghiệm. Tuy nhiên, nếu chiu 
hụ sinh một chút những điểm ở gần khu vực biên giới giữa hai lớp, ta vẫn có thể tạo 
được một đường phân chia khá tốt như đường nét đứt đậm. Các đường support đường 
nét đứt mảnh vẫn giúp tạo được một margin lớn cho bộ phân lớp này. Với mỗi điểm nằm 
lan sang phía bên kia của các đường suport tương ứng, ta gọi điểm đó rơi vào vùng không 
an toờn. Như trong hình, hai điểm màu đỏ nằm phía bên trái đường support của lớp đỏ 
được xếp vào loại không an toàn, mặc dù có một điểm đỏ vẫn nằm trong khu vực nền 
màu đỏ. Hai điểm màu xanh ở phía phải của đường support của lớp xanh thậm chí đều 
lán sang phần có nền màu đỏ. 
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(a) Khi có nhiễu nhỏ. 


(b) Khi dữ liệu gân linearly separable. 


Hình 27.1: Hai trường hop khi support vector machine thuần làm việc không hiệu quả. (a) Hai 
lớp vẫn linearly separable nhưng một điểm thuộc class này quá gần class kia, điểm này có thể là 
nhiễu. (b) Dữ liệu hai lớp không linearly separable, mặc dù chúng đã gần linearly separable. 


Trong cả hai trường hợp trên, margin tạo bởi đường phân chia và đường nét đứt mảnh còn 
được gọi là soft-margin (biên mềm). Dé phan biệt, SVM thuần còn được goi là hard-margin 
SVM (SVM biên cứng). SVM chấp nhận một vài điểm trong tập huấn luyện bị phân lớp lỗi 
này được goi là soft- margin SVM. 


Có hai cách xây dung và giải quyết bài toán tối uu cho soft-margin SVM, cà hai đều mang 
lai nhüng két quà thú vi và có thé phát trién tióp thành các thuát toán SVM phúc tap và 
hiệu quà hon nhu sé được thấy ở các chương sau của cuốn sách này. Cách giải quyết thứ 
nhất là giải một bài toán tối uu có ràng buộc bằng cách giải bài toán đối ngẫu giống như 
hard-margin SVM; cách giải dua vào bài toán đối ngẫu này là cơ sở cho phương pháp Kernel 
SVM cho dữ liệu thực sự không linearly separable sẽ được đề cập trong chương tiếp theo. 
Cách giải quyết thứ hai là đưa về một bài toán tối ưu không ràng buộc. Bài toán này có thể 
giải bằng các phương pháp gradient descent. Nhờ đó, cách giải quyết này có thể được áp 
dụng cho các bài toán large-scale. Ngoài ra, trong cách giải này, chúng ta sẽ làm quen với 
một hàm mất mát mới có tên là hinge loss. Hàm mất mát này có thể mở rộng ra cho bài toán 
multi-class classification sẽ được đề cập trong chương (multi-class SVM). Cách phát triển 
từ soft-margin SVM thành multi-class SVM có thé so sánh với cách phát triển từ logistic 
regression thành softmax regression. Tiếp theo, chúng ta cùng đi phân tích bài toán tối ưu 
cho soft-margin SVM. 


27.2 Phân tích toán học 


Như đã đề cập phía trên, để có một margin lớn hơn trong soft margin SVM, ta cần hy sinh 
một vài điểm dữ liệu bằng cách chấp nhận cho chúng rơi vào vùng không an toàn. Tat nhiên, 
việc hy sinh này cần được hạn chế, nếu không, ta có thể tạo ra một biên cực lớn bằng cách 
hy sinh hầu hết các điểm. Vậy hàm mục tiêu nên là một sự kết hợp để tối đa margin cũng 
như tối thiểu sự hy sinh. 
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Hình 27.2: Giới thiệu các bién slack £,,. 
Với các điểm nằm ở khu vực an toàn, 
€, = 0. Những điểm nằm trong vùng 
không an toàn, nhưng vẫn đúng phía so 
với đường ranh giới (đường nét đứt đậm), 
tương ứng với các 0 < é„ < 1, ví du x». 
Những điểm nằm ngược phía với class của 
chúng so với đường boundary ứng với các 
En > 1, ví dụ nhu x, và x3. 


Giống như với hard-margin S VM, việc tối da margin có thé đưa về việc tối thiểu ||w|2. Dé 
đong đếm sự hy sinh, chúng ta cùng theo dõi Hình 27.2. Với mỗi điểm x„ trong tập toàn bộ 
dữ liệu huấn luyện, ta giới thiệu thêm một bién đo sự hy sinh €, tương ứng. Biến này còn 
được gọi là slack variable. Với những điểm x, nằm trong vùng an toàn (nằm đúng vào màu 
nén tuong ứng và nằm ngoài khu vực margin), En = 0, tức không có su hy sinh mát mát nào 
xảy ra. Với mỗi điểm nằm trong vüng không an toàn nhu xị, x» hay xạ, ta cần có €, > 0, tức 
mát mát đã xảy ra. Đại lượng này nên tỉ lệ với khoáng cách từ điểm vi pham tương ứng tới 
biên giới an toàn. Nhận thấy rằng nếu y; = +1 là nhãn của x; trong vùng không an toàn thi 
£; có thể được định nghĩa là 

& = Iw? x; + b— yil (27.1) 


(6 đây, ta đã bỏ mẫu só ||w|| đi vi ta chỉ cần một đại lượng tỉ lệ thuận.) Nhắc lại bài toán 
tối ưu cho hard-margin SVM: 


1 
(w, D) = arg min 5 wl 


(27,2) 
thoả mãn: y,(w’x, +b) > 1, Wn=1,2,...,N 


Với soft-margin SVM, hàm mục tiêu sé có thêm một só hạng nữa giúp tối thiểu tong su hy 
sinh. Từ đó ta có hàm mục tiêu 


N 
1 
E +0) En (27.3) 


n=1 


trong đó C là một hằng só dương.Điều kiện ràng buộc được thay đổi một chút. Với mỗi cặp 
dữ liệu (Xn, Yn), thay vì ràng buộc cứng y, (w"x, + b) > 1, ta sử dụng ràng buộc mêm: 


Yn(w x, +b) > 1— En S 1— En —y(w' x, +b) <0, Yn =1,2,...,0 


Va ràng buộc phụ én > 0, Vn = 1,2,..., N. 
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Tóm lại, ta sẽ có bài toán tối ưu primal cho soft-margin SVM như sau day. 


N 
1 
(w, b, €) = argmin lliw +C 5 €n 
nml (27.4) 
thoả mãn: 1 — €, — „(WTx„ + b) < 0, Yn = 1,2,..., N 
-E,<0, Vn=1,2,...,N 


Nhán xét: 


e Nếu C nhỏ, việc sự hy sinh cao hay thấp không gây ảnh hưởng nhiều tới giá tri của hàm 
mục tiêu, thuật toán sẽ điều chỉnh sao cho ||w||2 là nhỏ nhất, tức margin là lớn nhất, điều 
này sẽ dẫn tới um En sẽ lớn theo vì vùng an toàn bị nhỏ di. Ngược lai, nếu C quá lớn, dé 
hàm mục tiêu đạt giá trị nhỏ nhất, thuật toán sẽ tập trung vào làm giảm pt En. Trong 
trường hợp C rất rất lớn và hai lớp là linearly separable, ta sẽ thu được yy En = 0. Chú 
y ráng giá tri này không thé nhó hon 0. Diéu này dóng nghía vói viéc không có diém nào 
phải hy sinh, tức ta thu được nghiệm cho hard-margin SVM. Nói cách khác, hard-margin 
SVM chính là một trường hợp đặc biệt của soft-margin SVM. 


e Bài toán tối ưu (27.4) có thêm sự xuất hiện của các biến slack €,. Các Ên = 0 tương ứng 
với những điểm dữ liệu nằm trong vùng an toàn. Các 0 < €, < 1 tương ứng với những 
điểm nằm trong vüng không an toàn nhưng vẫn được phân loại đúng, tức vẫn nằm vé 
đúng phía so với đường phân chia. Các £, > 1 tương ứng với các điểm bị phân lớp sai. 


e Hàm mục tiêu trong bài toán tối uu (27.4) là một hàm lồi vì nó là tổng của hai hàm 
lồi: hàm norm và hàm tuyến tính. Các hàm ràng buộc cũng là các hàm tuyến tính theo 
(w,b,€). Vì vậy bái toán tối uu (27.4) là một bài toán lồi, hơn nữa nó có thể biểu diễn 
dưới dạng một quadratic programming (QP). 


Dưới đây, chúng ta sẽ cùng giải quyết bài toán tối ưu (27.4) bằng hai cách khác nhau. 
27.3 Bài toán đối ngẫu Lagrange 


Chú ý rằng bài toán này có thể giải trực tiếp bằng các toolbox hỗ trợ QP, nhưng giống như 
với hard-margin SVM, chúng ta sé quan tâm hơn tới bài toán đối ngẫu của nó. 


Trước kết, ta cần kiểm tra tiêu chuẩn Slater cho bài toán tối ưu lồi (27.4). Nếu tiêu chuẩn 
này được thoả mãn, strong duality sẽ thoả mãn, và ta sẽ có nghiệm của bài toán tối uu (27.4) 
là nghiệm của hệ điều kiện KKT (xem Chương 25). 


27.3.1 Kiểm tra tiêu chuẩn Slater 


Rõ ràng là với mọi n = 1,2,..., N và moi (w,b), ta luôn có thể tim được các số dương 
En n= 1,2,..., N, đủ lớn sao cho „(WTx„ +b) +& > 1, Vn = 1,2,..., N. Vì vậy, bài toán 
này thoả mãn tiêu chuẩn Slater. 
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27.3.2 Lagrangian của bài toán Soft-margin SVM 


Lagrangian cho bài toán (27.4) là 


N N N 
1 
L(w,b,Ẹ, À, u) = ME +C » + »» Àn(1 — En — Un(W Xn +Ù))— NA (27.5) 
n=1 n=1 n=1 


với A = [À¡, Àa,...,Àw]f = 0 và w= [ui uo, ..., un]? & 0 là các biến đối ngẫu Lagrange. 
27.3.3 Bài toán đối ngẫu 
Hàm số đối ngẫu của bài toán tối ưu (27.4) là: 


g(A, u) = min £(w, b, &, A, 1) 


Với mỗi cáp (A, 1), chúng ta sẽ quan tâm tới (w,b,€) thoả man điều kiện dao hàm của 
Lagrangian bằng 0: 


N 
W.b-U0euy- 25 AnYnXn (27.6) 
n=1 
N 
Vi£=04 Y Xy, = 0 (27.7) 
n=l 
Ve L=0 © An = C — Un (27.8) 


Từ (27.8) ta thấy rằng ta chỉ quan tâm tới những cặp (A, u) sao cho A, = C — un. Từ 
đây ta cũng suy ra 0 < An, in € C,n = 1,2,..., N. Thay các biểu thức này vào biểu thức 
Lagrangian (27.5), ta thu được hàm mục tiêu của bài toán đối ngẫu! 


N 1 N N 
n=1 n=1 m=1 


Chú ý rằng hàm này không phụ thuộc vào / nhưng ta cần lưu ý ràng buộc (27.8), ràng buộc 
này và điều kiện không âm của A có thể được viết gon lại thành 0 € A, < C, khi đó ta đã 
giảm được biến u. Lúc này, bài toán đối ngẫu trở thành 


A — arg max g(A) 


N 
thoa man: > Ag, = 0 (27.10) 
n=1 
0<A.<C, Yn2 1,2,...,N (27.11) 


Bài toán này gán gióng vói bài toán dói ngáu cúa hard-margin SVM, chi khác là có thém 
ràng buộc mỗi À„ bi chặn trên bởi C. Khi C rất lớn, ta có thé coi hai bài toán là nhu nhau. 


1 Ban đọc hãy coi day nhu là một bài tập nhỏ. 
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Rang buộc (27.11) còn được gọi lá bor constraint vì không gian các điểm A thoả mãn ràng 
buộc này giống như một hình hộp chữ nhật trong không gian nhiều chiều. Bài toán này cũng 
hoàn toàn giải được bằng các công cụ giải QP thông thường, ví dụ CVXOPT như tôi đã 
thực hiện trong bài hard-margin SVM. Sau khi tìm được A của bài toán đối ngẫu, ta vẫn 
phải quay lại tìm nghiệm (w,b,€) của bài toán gốc. Trước hết, chúng ta cùng xem xét hệ 
điều kiện KKT và các tính chất của nghiệm. 


27.3.4 Hệ điều kiện KKT 


(Ban đọc không muốn di sáu vào toán có thé bó qua muc này) 


Hệ điều kiện KKT? của bài toán tối ưu soft-margin SVM là, với moi n = 1,2,..., N: 
1—É,— Ynlw xn +b) <0 (27.12) 
£20 (27.13) 
50 (27.14) 
lin > 0 (27.15) 
Anll — En — Yn(w?x, +b)) =0 (27.16) 
kuến = 0 (27,17) 
N 
w= ` AnYnXn (27.6) 
n=1 
N 
NU (27.7) 
n=1 
An = C — Un (27.8) 


Từ (27.8) ta thấy chỉ có những n ứng với A, > 0 mới đóng góp vào nghiêm w của bài toán. 
Tập hợp S = {n : An > 0} được gọi là support set, và [x,,n € S) được gọi là tập các điểm 
support vectors. 


Khi A, > 0, (27.16) chỉ ra rằng 
Un (w7 x, -- b) = 1 — En (27.18) 


Nếu có thêm điều kiện 0 < Ap < C, (27.11) nói rang un = C — An > 0, kết hợp với (27.17), 
ta thu được €, = 0. Tiếp tục kết hợp với (27.18), ta suy ra yn(w*x, +b) = 1. Nói cách khác, 


wx, +b = Yn, Vn:Ũ < À„< Ở (27.19) 


Tóm lại, khi 0 < A, < C, các điểm x, nằm chính zác trên các margin (hai đường nét đứt 
mảnh trong Hình 27.2). Tương tự như với hard-margin SVM, giá trị b có thể được tính theo 
công thức (numerical stable solution): 


b = — (Ym — L Xm) (27.20) 


2 Để cho dễ hình dung, các điều kiện (27.6) (27.7) (27.8) dá được nhắc lại trong hệ này. 
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với M = (m : 0 < Am < C] và Ny là số phần tử của S. Nghiệm của bài toán soft-margin 
SVM được cho bởi (27.8) và (27.20). 


Nghiệm của bài toán soft-margin SVM 


w= ` AmYmXm (27.21) 


—w’'x,) = E ` (s.- Y Adis, J (27.22) 


neM mes 


Cũng từ (27.18) và (27.16) ta suy ra y, (w"x, +b) < 1 với những điểm tương ứng với An = C. 
Tức những điểm này nằm giữa hoặc trên hai đường margin. Như vậy, dựa trên các giá tri 
của A, ta có thé dự đoán được vi trí tương đối của x, so với hai đường margin. 


Mục đích cuối cùng là xác định nhãn cho một điểm mới hon là tính cụ thể w và b. Vì vậy, 
ta quan tâm hơn tới cách xác định giá trị của biểu thức sau đây với x bất kỳ: 


wi x+b= ` AmUmXL, X +y — -5 (s.- ` Adis J (27.23) 


mes M nem mes 


Trong cách tính này, nếu biết cách tính các tích vô hướng xx và xT x,„, ta có thể xác dinh 
được bộ phân lớp. Trong chương tiếp theo, ta sẽ thấy rằng bằng cách sử dụng các phép biến 
doi phi tuyến (nonlinear transformation) dé thay đổi tích vo hướng bằng các hàm khác, ta 
sẽ thu được các bộ phân lớp làm việc hiệu quả với dữ liệu không linear separable. 


27.4 Bài toán tối ưu không ràng buộc cho soft-margin SVM 


Trong mục này, chúng ta sẽ đưa bài toán tối ưu có ràng buộc (27.4) về một bài toán tối 
ưu không ràng buộc, và có có khả năng giải được bằng các phương pháp gradient descent 
giống như các neural network. Đây cũng là nên tảng để kết hợp một multi-class SVM vào 
các neural network, như sẽ được trình bày trong Chương 29. 


27.4.1 Bài toán tối ưu không ràng buộc tương đương 
Để ý thấy rằng điều kiện ràng buộc thứ nhất: 

1— En — Ynlw x +b) <0 S 6, > 1-—y,(w'x +d) (27.24) 
Kết hợp với điều kiện €, > 0 ta sẽ thu được bài toán ràng buộc tương đương với bài toán 


(27.4) như sau: 


(w,b,€) = arg min zwi — Ye 


n=l 


thoả mãn: £, > max(0,1 — y,(wTx + b)), Yn =1,2,...,N 


(27.25) 
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Tiếp theo, dé đưa bài toán (27.25) vé dạng không ràng buộc, chúng ta sẽ chứng minh nhận 
xét sau đây bằng phương pháp phản chứng. Nếu (w,b,€) là nghiệm của bài toán tối ưu 
(27.25), tức tại đó hàm mục tiêu đạt giá trị nhỏ nhất, thì 


En = max(0, 1 — y,(wTx, -- b)), vn 1,2,...,N (27.26) 
Thật vậy, giả sử ngược lại, tồn tai n sao cho 
En > max(0, 1 — y, (wx, + b)), 
chon £/, = max(0, 1 — yn(w*x, + b)), ta sẽ thu được một giá trị tháp hon của hàm mục tiêu, 
trong khi tất cả các ràng buộc vẫn được thoả mãn. Điều này mâu thuẫn với việc hàm mục 
tiêu đã đạt giá trị nhỏ nhất! Điều mâu thuẫn này chỉ ra rằng nhận xét (27.26) là chính xác. 
Khi đó, bằng cách thay toàn bộ các giá tri của €, trong (27.26) vào hàm mục tiêu, ta thu 


được bài toán tối ưu 


N 
1 
(w,b,£) = arg mịn z||w| + xU 1— ys (wx, + b)) 


thoả mãn: €, = max(0,1 — y,(w’x, + b)), Vn = 1,2,...,N 


(27.27) 


Từ dày ta thấy rằng bién só £ không còn quan trọng trong bài toán này nữa, ta có thể lược 
bỏ rằng buộc này mà không làm thay đổi nghiệm của bài toán. 


Bài toán (27.27) tương đương với 
1 N 
(w, b) = arg min fi +C > max(0, 1 — y, (wx, +0)) £ J(w, T (27.28) 
ii n=1 


Đây lá một bài toán tối ưu không ràng buộc với hàm mát mát J(w, b). Bài toán này có thể 
giải được bằng các phương pháp gradient descent. Nhưng trước hết, chúng ta cùng xem xét 
hàm mát mát này từ một góc nhìn khác. Góc nhìn mới này giúp xây dung hàm mát mát 
J(w,b) một cách tu nhién hơn bằng cách sử dụng một hàm số có tên là hinge loss. 


27.4.2 Hinge loss 


Nhắc lại một chút về hàm cross entropy. Với mỗi cặp hệ số (w, b) và cặp dữ liệu (Xn, Yn), đặt 
Zn = Wx, +b và a, = o (zn) (c là sigmoid function). Hàm cross entropy được định nghĩa là 


J1(w,b) = —(yn log(a„) + (1 — yn) log(1 — an)) (27.29) 
Hàm cross entropy dat giá trị càng nhỏ nếu xác suất a, càng gần với y, (0 < an < 1). 
Ó đây, chúng ta làm quen với một hàm só khác cũng được sử dụng nhiều trong các bộ phân 


lớp. Hàm số này có dạng 
J„(w, b) = max(0, 1 — Ynzn) 
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h(yz) Hình 27.3: Hinge loss (màu xanh) 
và zeros-one loss (màu đen). Với 
zero-one loss, những điểm nằm 
xa margin (hoành độ bằng 1) và 
boundary (hoành độ bằng 0) được 
đối xử như nhau. Trong khi đó, với 
hinge loss, những điểm ở xa về phía 
trái gây ra mất mát nhiều hơn. 


Hàm này có tên là hinge loss. Trong đó, zn = wx, + b có thể được coi là score của Xp 
ứng với cặp hệ só (w,b), y, chính là đầu ra mong muốn. Chúng ta sẽ sớm thấy ý nghĩa của 
hàm này thông qua đồ thị của hàm tương ứng. Hình 27.3 mô tả đồ thị hàm só hinge loss* 
f(yz) = max(0, 1 — yz) và so sánh với hàm zero-one loss. Hàm zero-one loss là hàm đếm só 
điểm bị phân lớp lỗi. Trong Hình 27.5, bién só là yz là tích của đầu ra mong muốn (ground 
truth) và score z. Những điểm ở phía phải của trục tung ứng với những điểm được phân 
loại đúng, tức z tìm được cùng dấu với y. Những điểm ở phía trái của trục tung ứng với các 
điểm bị phân loại sai. Ta có các nhận xét sau đây: 


e Với hàm zero-one loss, các điểm có score ngược dau với đầu ra mong muốn (yz < 0) sẽ 
gây ra mất mát như nhau (bằng 1), bất ké chúng ở gần hay xa đường ranh giới (trục 
tung). Đây là một hàm rời rạc, rất khó tối ưu và ta cũng khó có thể đo đếm được su hy 
sinh nhu đã định nghĩa ở phần đầu. 


e Với hàm hinge loss, những điểm nằm trong vùng an toàn, ứng với ys > 1, sẽ không gây 
ra mất mát gì. Những điểm nằm giữa margin của lớp tương ứng và đường ranh giới ứng 
với 0 <  < 1. Những điểm này gây ra một mất mát nhỏ (nhỏ hơn 1). Những điểm bị 
misclassifed, tức yz < 0 sẽ gây ra mát mát lớn hon. Vì vậy, khi tối thiểu hàm mát mát, 
ta sẽ hạn chế được những điểm bị misclassifed và lấn sang phần lãnh tho của lớp còn lại 
quá nhiều. Đây chính là một ưu điểm của hàm hinge loss. 


e Hàm hinge loss là một hàm liên tục, và có đạo hàm tại gần như moi nơi (almost everywhere 
differentiable) trừ điểm có hoành độ bằng 1. Ngoài ra, đạo hàm của hàm này cũng rất dễ 
xác định: bằng -1 tại các điểm nhỏ hon 1 và bằng 0 tại các điểm lớn hơn 1. Tại 1, ta có 
thể coi như đạo hàm của nó bằng 0 giống như cách tính đạo hàm của hàm ReLU. 


27.4.3 Xây dung hàm mát mát 


Xét bài toán soft-margin SVM bằng cách sử dung hinge loss, với mỗi cáp (w, 5), đặt 
L„(w, b) = max(0,1 — „z„) = max(0, 1 — yn(w*x, + b)) (27.30) 


3 Đồ thị của hàm só này có hình giống chiếc bản lề. Trong tiếng Anh, hinge nghĩa là bản là. 
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Lấy trung bình cộng của các loss này theo mọi điểm dữ liệu trong tập huấn luyện ta được 


N N 
1 
L(w,b) = N ) La N ) max(0, 1 — y, (wx, + b)) 


n=l = 
Câu hoi đặt ra là, nếu ta trực tiếp tối uu trung binh các hinge loss này thà điều gi sẽ xay ra? 
Trong trường hợp dữ liệu của hai lớp là linearly separable, ta sẽ có giá trị tối ưu tìm được 
của L(w,b) sẽ bằng 0. Điều này có nghĩa là: 

1—a(w xn +b) <0, Vn =1,2,...,N (27.31) 
Nhán ca hai vé vói mot hang só a > 1 ta có: 


a — y. (aw? x, +ab) < 0, Yn = 1,2,...,N (27.32) 
=> 1-y,(aw' x, + ab) <S1—a< 0, Vn=1,2,...,N (27.33) 


Điều này nghĩa là (aw, ab) cũng là nghiệm của bài toán. Nếu không có điều kiện gì thêm, 
bài toán có thể dẫn tới nghiệm không ón dinh vì các hệ số của nghiệm có thể lớn tuy y! 


Để tránh bug này, chúng ta cần thêm một số hạng nữa vào L(w, b) gọi là số hạng regulariza- 
tion, giống như cách chúng ta đã làm để tránh overfitting trong neural networks. Lúc này, 
ta sẽ có hàm mát mát tổng cộng là 


J(w,b) = L(w,b) + AR(w, b) 


với A là một số dương, goi là regularization parameter, hàm R() sẽ giúp han chế việc các hệ 
số (w, b) trở nên quá lớn. Có nhiều cách chon hàm R(), nhung cách pho biến nhất là I», khi 
đó hàm mát mát của soft-margin SVM trỏ thành 


N 
1 A 
J(w,b) 2 — ) max(0, 1 —yn(w*x, +b) + will (27.34) 
N = 2 


- regularization 
hinge loss 


Kỹ thuật này còn gọi là weight decay. Chú ý rằng weight decay thường không được 
áp dụng lén thành phần bias b. 


Ta thấy rằng hàm mất mát (27.34) giống với hàm mất mát (27.28) với À = 
lấy trung bình cộng bằng việc tính tổng. 


a va thay viéc 


Trong phần tiếp theo của mục này, chúng ta sé quan tâm tới bai toán tối ưu hàm mat mát 
được cho trong (27.34). Trước hết, đây là một hàm lồi theo w, b vì các lý do sau: 


e 1— y,(w? x, + b) là một hàm tuyến tính theo w,b nén nó là một hàm lồi. Hàm lay giá 
trị lớn hơn trong hai hàm lồi là một hàm lồi, vì vậy, hingle loss là một hàm lồi. 
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e Hàm norm cũng là một hàm lồi. 

e Tổng của hai hàm lồi là một hàm lồi. 

Vì hàm mất mát là lồi, các thuật toán gradient descent với learning rate phù hợp sẽ giúp 
tìm được nghiệm của bài toán. 

27.4.4 Tối ưu hàm mát mát 


Vì việc tối uu hàm mát mát dựa trên gradient descent, việc chính của mục này là tính dao 
hàm của hàm mát mát theo w và b. 


Đạo hàm của phần hinge loss không quá phức tap: 


= 5 = T 
Vw (max(0, 1 — y, (w^ x, + b))) = l YnXn nêu l— ÿn(W Xa +b) 2 0 (27.35) 
0 O.W. 
= T — ] — Yn néu ls Yn(W X + b) > 0 
V, (max(0, 1 — y, (w*x,, + b))) = l 0 po (27.36) 
Phán regularization cúng có dao hám tuong dói don gián: 
Aa . 
Vw | allwls] =Aws Ve { s|lwls } =0 (27.37) 


Nếu cập nhật bang gradient descent thông qua chi một điểm dữ liệu (xn, yn) (stochastic 
gradient descent). Néu 1—y,(w"x, +b) < 0, ta không cập nhật gì và chuyển sang điểm tiếp 
theo. Ngược lại biểu thức cập nhật cho w, b được cho bởi 


w« w-mn(-yX,- Aw) be b+nyn nếu 1—yp(w'x,+b)>0) (27.8) 
w & Ww — Aw; bb O.W. (27.39) 


với 7 là learning rate. Với mini-batch gradient descent hoặc batch gradient descent, các biểu 
thức dao hàm trên đây hoàn toàn có thể được lập trình bang các kỹ thuật vectorization, như 
chúng ta sẽ thấy trong mục tiếp theo. 


27.5 Lập trình với soft-margin SVM 


Trong mục này, chúng ta sẽ đi tìm nghiệm của một bài toán soft-margin SVM bằng ba cách 
khác nhau: sử dung thư viện sklearn, giải bài toán đối ngẫu bằng CVXOPT, và tối uu hàm 
mát mát không ràng buộc bằng phương pháp gradient descent. Giá trị C được sử dụng là 
100. Nếu mọi tính toán ở trên là chính xác, nghiệm của ba cách làm này sẽ gần giống nhau, 
khác nhau có thể một chút bởi sai số trong tính toán. Chúng ta cũng sẽ thay C bởi những 
giá trị khác nhau và cùng xem các margin thay đổi như thế nào. 


^ Ta có thé khẳng định việc này vi bài toán tối ưu soft-margin SVM là lồi. 
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Khai báo thư viện vá tao dữ liệu giả 


from __future__ import print function 
import numpy as np 

import matplotlib.pyplot as plt 
np.random.seed(22) 


means = [[2, 2], [4, 21] 

cov = [[.7, DỊ, [0, .71] 

N = 20 # number of samplers per class 

X0 = np.random.multivariate_normal (means[0], cov, N) # each row is a data point 
X1 = np.random.multivariate normal(means[1], cov, N) 


X = np.concatenate((X0, X1)) 
np.concatenate((np.ones(N), np.ones (N))) 


Ke 
ll 


Các điểm mau xanh va đỏ trên Hình 27.4 minh hoa các điểm dữ liệu của hai lớp. Dữ liệu 
này là gan linearly separable. 


27.5.1 Giải bài toán bằng thư viện sklearn 


from sklearn.svm import SVC 


C = 100 

clf = SVC(kernel = 'linear', C = C) 
clf.fit(X, y) 

w Sklearn = clf.coef .reshape(-1, 1) 


b sklearn = clf.intercept [0] 
print (w sklearn.T, b sklearn) 


Kết quả: 


w sklearn = [[-1.87461946 -1.80697358]] 
b_sklearn 8.49691190196 


27.5.2 Tim nghiệm bằng cách giải bài toán đối ngẫu 


Đoạn code dưới đây tương tự như việc giải bài toán hard-margin SVM, chỉ khác rằng ta có 
thêm ràng buộc về chặn trên của các nhân tử Lagrange: 


from cvxopt import matrix, solvers 


# build K 

V = np.concatenate((X0, -X1), axis = 0) # V[n,:] = y[n]*X[n] 

K = matrix(V.dot (V.T)) 

p = matrix(-np.ones((2*N, 1))) 

# build A, b, Gy D 

G = matrix(np.vstack((-np.eye(2*N), np.eye(2*N)))) 

h = np.vstack((np.zeros((2*N, 1)), C*np.ones((2*N, 1)))) 

h = matrix(np.vstack((np.zeros((2*N, 1)), C*np.ones((2*N, 1))))) 
A = matrix(y.reshape((-1, 2*N))) 

b = matrix(np.zeros((1, 1))) # continue on next page 
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solvers.options[’show_progress’] = False 
sol = solvers.qp(K, p, G, h, A, b) 


1 = np.array(sol['x']).reshape(2*N) # lambda vector 


# support set 

S = np.where(1 > 1e-5) [0] 

52 = np.where(1 < .999*C) [0] 
# margin set 


M = [val for val in S if val in S2] # intersection of two lists 
vs = V[S] # shape (NS, d) 

lS = 1[S] # shape (NS,) 

w_dual = 1S.dot(VS) # shape (d,) 

yM = y[M] # shape (NM, ) 

XM = X[M] # shape (NM, d) 

b_dual = np.mean (yM XM.dot (w_dual)) # shape (1,) 
print('w dual = ', w dual) 

print('b dual = ', b dual) 

Kết quả: 

w dual = [-1.87457279 -1.80695039] 


b dual 8.49672109814 


Két quà này gàn gióng vói két quà tim dugc báng sklearn. 
27.5.3 Tim nghiệm bằng giải bài toán tối uu không ràng buộc 


Trong phương pháp này, chúng ta cần tính gradient của hàm mát mát. Như thường lệ, chúng 
ta cần kiểm chứng này bằng cách so sánh với numerical gradient. Chú ý rằng trong phương 
pháp này, ta cần dùng tham số lam = 1/C. Trước hết ta viết các hàm tính giá trị hàm mất 
mát và đạo hàm theo w và b. 


lam = 1./C 
def loss(X, y, w, b): 


X.shape = (2N, d), y.shape = (2N,), w.shape = (d,), b is a scalar 


z = X.dot(w) + b # shape (2N,) 


yz = y*z 
return (np.sum(np.maximum(0, 1 - yz)) + .5*lam*w.dot (w)) /X.shape [0] 


def grad(X, y, w, b): 
z = X.dot(w) + b # shape (2N,) 


yz = y*z # element wise product, shape (2N,) 

active_set = np.where (yz <= 1)[0] # consider 1 - yz >= 0 only 
_yX = - X*y[:, np.newaxis] # each row is y n*x n 

grad w = (np.sum( yX[active set], axis = 0) + lam*w)/X.shape[0] 
grad b = (-np.sum(y[active set]))/X.shape[0] 

return (grad w, grad b) ## continue on next pag 
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def num grad(X, y, w, b): 
eps = le-10 
gw = np.zeros like (w) 
gb = 0 
for i in xrange(len(w)): 
) 


( 
() 


wp[i] += eps 
wm[i] -= eps 
gw[i] = (loss(X, y, wp, b) - loss(X, y, wm, b))/(2*eps) 
gb = (loss(X, y, w, b + eps) - loss(X, y, w, b - eps))/ (2*eps) 


return (gw, gb) 


.1*np.random.randn (X.shape[1]) 
np.random.randn() 
gwO, gb0) = grad(X, y, w, b) 


~ nO € 
ll 


gwl, gbl) = num_grad(X, y, w, b) 
print('grad w difference = ', np.linalg.norm(gw0 - gwl)) 
print('grad b difference = ', np.linalg.norm(gb0 - gbl1)) 
Két quà: 


1.27702840067e-06 
4.13701854995e-08 


grad w difference 
grad b difference 


Sự sai khác giữa hai cách tính là nhỏ; vậy ta có thé tin tưởng sử dung hàm grad trong 
gradient descent. 


def softmarginSVM gd(X, y, w0, b0, eta): 


w = wO 
b = b0 
it = 0 


while it < 10000: 
it = it + 1 


(gw, gb) = grad(X, y, w, b) 
w -= eta*gw 
b -= eta*gb 
if (it % 1000) == 0: 
print ("iter %d’ Sit + 7 loss: $f' 3loss(X, y, w, b)) 


return (w, b) 


w0 = .l*np.random.randn(X.shape[1]) 

b0 = .1*np.random. randn () 

lr = 0.05 

(w hinge, b hinge) = softmarginSVM gd(X, y, w0, b0, lr) 
print('w hinge = ', w dual) 

print('b hinge = ', Db dual) 
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Solution found by sklearn 
- e 


Solution found by dual 
a 


Solution found by hinge 
e a 


2 


(a) (b) (c) 


Hình 27.4: Các đường phân chia tìm được bởi ba cách khác nhau: a) Thư viện sklearn, b) Giải 
bài toán đôi ngẫu bằng CVXOPT, c) Hàm hinge loss. Các kết quả tim được gần như gióng nhau. 


Kết quả: 

iter 1000 loss: 0.436460 
iter 2000 loss: 0.405307 
iter 3000 loss: 0.399860 
iter 4000 loss: 0.395440 
iter 5000 loss: 0.394562 
iter 6000 loss: 0.393958 
iter 7000 loss: 0.393805 
iter 8000 loss: 0.393942 
iter 9000 loss: 0.394005 
iter 10000 loss: 0.393758 


w hinge = [-1.87457279 -1.80695039] 
b hinge = 8.49672109814 


Ta thấy rằng loss giảm dần và hội tụ theo thời gian, chứng tó learning rate là phù hop. 
Nghiệm tìm được cũng gần giống nghiệm của hai cách làm phía trên. 


Hình 27.4 mình hoạ các nghiệm tìm được bằng ba phương pháp phía trên. Ta thấy rằng các 
nghiệm tìm được gần như giống nhau. 


27.5.4 Ảnh hưởng của lên nghiệm 


Hình 27.5 minh hoạ nghiệm tìm được bằng sklearn với các giá trị Œ khác nhau. Quan sát 
thấy khi C càng lớn, biên càng nhỏ đi. Điều này phù hợp với các suy luận ở đầu chương. 


27.6 Tóm tắt và thảo luận 


e SVM thuần (hard-margin SVM) hoạt động không hiệu quả khi có nhiễu ở gần ranh giới 
hoặc thậm chí khi dữ liệu giữa hai lớp gần linearly separable. Soft-margin SVM có thể 
giúp khắc phục điểm này. 


e Trong soft-margin SVM, chúng ta chấp nhận lỗi xảy ra ở một vài điểm dữ liệu. Lỗi này 
được xác định bằng khoảng cách từ điểm đó tới đường margin tương ứng. Bài toán tối 
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C — 0.100000 


T2 
T2 


12 
T2 


Hinh 27.5: Ánh hưởng của C lên nghiệm của soft-margin SVM. C càng lớn, bién càng nhỏ, va 
ngược lại. 


ưu sẽ tối thiểu lỗi này bằng cách sử dụng thêm các biến được gọi là slack varaibles. Để 
giải bài toán tối ưu, có hai cách khác nhau. 

e Cách thứ nhất là giải bài toán đối ngẫu. Bài toán đối ngẫu của soft margin SVM rất 
giống với bài toán đối ngẫu của hard-margin SVM, chỉ khác ở ràng buộc chặn trên của 


các nhân tử Laggrange. Rang buộc nay còn được gọi là box costraint. 


e Cách thứ hai là đưa bài toán về dạng không ràng buộc dựa trên một ham mới gọi là hinge 
loss. Với cách này, hàm mất mát thu được là một hàm lồi và có thể giải được một cách 
hiệu quả bằng các phương pháp gradient descent. 


e Soft-margin SVM yêu cầu chon hằng số C. Hướng tiếp cận này còn được goi là C-SVM. 
Ngoài ra, còn có một hướng tiếp cận khác cũng hay được sử dụng, gọi là -SVM [SSW B00]. 


e Source code cho chương này có thể được tìm thấy tai https: // goo.gl/ PuWaba. 
e LIBSVM là một thư viện SVM phó biến (https: // goo.gl/ Dt7o7r). 


e Đọc thêm: L. Rosasco et al,. Are Loss Functions All the Same? (https: // goo.gl/ 
QH2Cgr). Neural Computation.2004 [RDVC *04]. 
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Chuong 28 


Kernel support vector machine 


28.1 Giới thiệu 


Có một sự tương ứng thú vị giữa hai nhóm thuật toán phân lớp phổ biến nhất, neural 
network và support vector machine. Chúng đều bắt đầu từ bài toán phân lớp với hai lớp dit 
liệu linearly separable, tiếp theo đến hai lớp gan nhu linear separable, dén bài toán với nhiều 
lớp dữ liệu, rồi các bài toán với các lớp hoàn toàn không linearly separable. Sự tương ứng 
được cho trong Bảng 28.1 


Bảng 28.1: Sự tương đồng giữa neural network và support vector machine 


Neural network Support vector machine | Tính chất chung 

PLA Hard-margin SVM Hai lóp lá linearly separable 

Logistic regression Soft-margin SVM Hai lóp lá gán linearly separable 

Softmax regression Multi-class SVM Nhiều lớp dữ liệu (ranh giới là các siêu phẳng) 
Multi-layer perceptron | Kernel SVM Bài toán phân lớp với biên không linearly separable 


Trong chương này, chúng ta cùng thảo luận về Kernel SVM, tức việc áp dụng SVM lên bài 
toán mà dit liệu giữa hai lớp là hoàn toàn không linear separable. Bài toán phân biệt nhiều 
lớp dữ liệu sẽ được thảo luận trong chương tiếp theo. 


Ý tưởng cơ bản của Kernel SVM và các phương pháp kernel nói chung là tìm một phép biến 
đổi dữ liệu không linearly separable 6 một không gian sang một không gian mới. Ỏ không 
gian mới này, dữ liệu trở nén linearly separable hoặc gan linearly separable, và vì vay, bài 
toán phân lớp có thể được giải quyết bằng hard /soft-margin SVM. 


Xét ví dụ trên Hình 28.1 với việc biến dữ liệu không linearly separable trong không gian 
hai chiều thành linearly separable trong không gian ba chiều bằng cách giới thiệu thêm một 
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t REI = »- 
e TÊN: 
i b 
(a) (b) 


Hinh 28.1: Ví du vé Kernel SVM. (a) Dữ liệu của hai lớp là không phân biệt tuyến tính trong 
không gian hai chiều. (b) Nếu coi thêm chiều thứ ba là một hàm só của hai chiều còn lại 
2 =z?+12, các điểm dữ liệu sẽ được phân bó trên một mặt parabolic và đã hai lớp trở nên 
linearly separable. Mặt phẳng màu vàng là mặt phân chia, có thể tìm được bởi một hard /soft- 
margin SVM. (c) Giao điểm của mặt phẳng tìm được và mặt parabolic là một đường ellipse, khi 
chiêu toàn bộ dữ liệu cũng như đường ellipse này xuông không gian hai chiều ban đầu, ta đã tìm 
được đường phân chia hai lớp. 


chiều mới. Để xem ví dụ này một cách sinh động hơn, bạn có thể xem clip đi kèm với blog 
Machine Learning co bán tai https: // goo.gl/ 3wMHyZ. 


Nói một cách toán hoc, kernel SVM là phương pháp đi tim một hàm só biến đổi dữ liệu x 
từ không gian đặc trưng ban đầu thành dữ liệu trong một không gian mới bằng một hàm 
số P(x). Trong ví dụ này, hàm 9() đơn giản là giới thiệu thêm một chiều đữ liệu mới là 
một hàm số của các thành phần đặc trưng đã biết. Hàm số này cần thỏa mãn: trong không 
gian mới, dữ liệu giữa hai lớp là linearly separable hoặc gần như linearly separable. Khi đó, 
ta có thể dùng các bộ phân lớp tuyến tính thông thường như PLA, logistic regression, hay 
hard/soft margin SVM. 


Các hàm #(x) thường tao ra dit liệu mới có số chiều cao hơn só chiều của dữ liệu ban đầu, 
thậm chí là vô hạn chiều. Nếu tính toán các hàm này trực tiếp, chắc chắn chúng ta sẽ gặp 
các vấn đề về bộ nhớ và hiệu năng tính toán. Có một cách tiếp cận là sử dụng các hàm 
kernel mô tả quan hệ giữa hai điểm dữ liệu bất kỳ trong không gian mới, thay vì đi tính 
toán trực tiếp biến đổi của từng điểm dữ liệu trong không gian mới. Kỹ thuật này được xây 
dựng dựa trên quan sát về các bài toán đối ngẫu của hard/soft margin SVM. 


Nếu phải so sánh, ta có thể thấy rằng các hàm kernel có chức năng tương tự như các hàm 
activation trong neural network vì chúng đều giúp giải quyết các bài toán với dữ liệu không 
linearly separable. Trong Mục 28.2, chúng ta cùng tìm hiểu co sở toán học của Kernel SVM, 
Mục 28.3 sẽ giới thiệu một số hàm kernel thường được sử dụng. 
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28.2 Cơ sở toán hoc 


Cùng nhắc lai bài toán đối ngẫu trong soft-margin SVM cho dí liệu gan linearly separable: 


N 1 N N 
A= arg eS 25 An 2 2 ` An Aenea, Xm 
n=1 


n=1m=1 
N (28.1) 
thoá mán: ` ÀAnYn = 0 
n=1 


0< An <C, Vn21,2,...,N 


trong đó, N là số cặp điểm dữ liệu trong tập huấn luyện; x, là vector đặc trưng của dữ liệu 
thứ n trong tập training; y, là nhãn của điểm dữ liệu thứ n, bằng 1 hoặc -1; A, là nhân tử 
Lagrange ứng với điểm dữ liệu thứ n; và C là một hằng số dương giúp cân đối độ lớn của 
margin và sự hy sinh của các điểm nằm trong vùng không an toàn. Khi C — oo hoặc rất lớn, 
soft-margin SVM trở thành hard-margin SVM. 


Sau khi giải được A cho bài toán (28.1), nhãn của một điểm dữ liệu mới sẽ được xác định 


bởi 

1 

E T u T 

class(x) — sgn i 3 AmYmXmX + Nu ` @ »» m | (28.2) 
mes neM mes 

trong đó, M = {n : 0 < A, < C] là tập hợp những điểm nằm trên các margin; S = {n : 

0 < àn} là tập hợp các support vector; và Nm là số phần tử của M. 


Với dữ liệu thực tế, rất khó để có dữ liệu gần phân biệt tuyến tinh, vì vậy nghiệm của bài 
toán (28.1) có thể không thực sự tạo ra một bộ phân lớp tốt. Giả sử rằng ta có thể tìm được 
hàm số @() sao cho sau khi được biến đổi sang không gian mới, mỗi điểm dữ liệu x trở thành 
P(x), và trong không gian mới này, dữ liệu trở nên gan phân biệt tuyến tính. Lúc này, hy 
vong rằng nghiệm của bài toán soft-margin SVM sẽ cho chúng ta một bộ phân lớp tốt hơn. 


Trong không gian mới, bài toán (28.1) trở thành: 


N N N 
1 T 
A= arg HE 2. An = 2 ` »3 AnAmUntin® (Xn) P(Xm) 


n=l] m=1 


N (28.3) 
thoa man: » Anta = U 


nel 


0€A,xC, Yn2 12,..., N 


và nhãn của một điểm dữ liệu mới được xác dinh bởi dấu của biểu thức 


wTØ(x) +b = X. Aud (xs)! B(x) + xz ` c -5 Mats a) (28.4) 


mecs neM mes 
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Nhu đã nói ở trên, việc tính toán trực tiếp ®(x) cho mỗi điểm dữ liệu có thé sé tốn rất nhiều 
bộ nhớ và thời gian vì số chiều của (x) thường là rất lớn, có thể là vô hạn. Thêm nữa, dé 
tìm nhấn của một điểm dữ liệu mới x, ta lại phải tìm biến đổi của nó (x) trong không 
gian mới rồi lấy tích vô hướng của nó với tất cà các (xm) với m trong tập hợp support. Dé 
tránh việc này, ta quan sát thấy một điều thú vị sau đây. 


Trong bài toán (28.3) và biểu thức (28.4), chúng ta không cần tính trực tiếp (x) cho 
mọi điểm dữ liệu. Chúng ta chi cần tính được #(x)f#(z) dựa trên hai điểm dữ liệu x, z 
bất kỳ. Vì vậy, ta có thể không cần xác định hàm @(.) mà chỉ cần xác định một hàm 
k(x,z) = #(x)fø(z). Kỹ thuật này còn được gọi là kernel trick. Những phuong pháp dựa 
trên kỹ thuật này, tức thay vì trực tiếp tính tọa độ của một điểm trong không gian mới, ta 
đi tính tích vô hướng giữa hai điểm trong không gian mới, được gọi chung là kernel method. 


Lúc này, bằng cách định nghĩa hàm kernel k(x,z) = ®(x)T®(z), ta có thể viết lại bài toán 
(28.3) và biểu thức (28.4) như sau: 


N 1 N N 
A= arg n 2. Àn — 2 > p AnAmYnYmk (Xn, Xm) 


n=1 m=1 


N (28.5) 
thoà mán: » Anda = 0 


n=1 


0€A,xOC, Vn =1,2,...,N 


» AmUmk(Xm, X) + S ` Un — ` Arati (Xm, Xn) (28.6) 
Nm 


mes neM 


Vi dụ: Xét phép biến đổi một điểm dữ liệu trong không gian hai chiều x = [z,, 25]7 thành 
một điểm trong không gian 5 chiều (x) = [1, V2z,, V2za, x2, 21425, 12]". Ta có: 


D(x)"D(z) = (1, Y 251, V2z:, m V2zza, 23] |, V2, V223, i V 22122, £j (28.7) 
=1+2014 +200% + 1192 + Un 2iralo +12 (28.8) 

= (1 + £121 + £222)” = (1 + x"z}? = k(x, z) (28.9) 

Trong ví du này, rõ ràng rằng việc tính toán hàm kernel k(x, z) = (1 +x*z)? cho hai điểm 


dữ liệu dễ dàng hơn việc tính từng P(.) rồi nhân chúng với nhau. Hon nữa, giá trị thu được 
là một số vô hướng thay vì phải lưu hai vector năm chiều 9(x), D(z). 


Vậy những hàm số kernel cần có những tính chất gì, và những hàm như thế nào được sử 
dụng trong thực tế? 
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28.3 Hàm só kernel 

28.3.1 Tính chát cüa các hàm kernel 

Không phải hàm k() bát kỳ nao cũng được sử dung. Các hàm kernel cần có các tính chát: 
e Dói xứng: k(x,z) = k(z, x), vi tích vô hướng của hai vector có tính đối xứng. 


e Về ly thuyết, hàm kernel cần thỏa mãn điều kiện Mercer!: 


N N 
3... .- 6... 7 219 uu (28.10) 
n=l m=1 

Với moi tập hữu han các vector xị,...,x„. Tính chất này để dám bảo cho việc hàm muc 


tiêu của bài toán đối ngẫu (28.5) là loi. Thật vậy, nếu một hàm kernel thỏa mãn điều 
kiện (28.10), xét c, = YnAn, ta sẽ có: 


N N 
AKA = Y V (Km, Xn)YnYmAnAm 2 0, VAn (28.11) 


n=l] m=1 


với K là một ma trận đối xứng mà phần tử ở hàng thứ n cột thứ m của nó được định 
nghĩa bởi kum = YnYmk(Xn, Xm) Từ (28.11) ta suy ra K là một ma trận nửa xác dinh 
dương. Vì vậy, bài toán tối ưu (28.5) có ràng buộc là lồi và hàm mục tiêu là một hàm lồi 
(một quadratic form). Vì vậy chúng ta có thể giải quyết bài toán này một cách hiệu quả. 


e Trong thực hành, có một vài hàm số k() không thỏa mãn điều kiện Merrcer nhưng vẫn 
cho kết quả chấp nhận được. Những hàm số này vẫn được gọi là kernel. Trong bài viết 
này, chúng ta chỉ tập trung vào các hàm kernel thông dụng và có sẵn trong các thư viện. 


Việc giải quyết bài toán (28.5) hoàn toàn tương tự như bài toán đối ngẫu của soft-margin 
SVM, chúng ta sẽ không bàn tới trong chương này. Thay vào đó, các hàm kernel thông dụng 
và hiệu năng của chúng trong các bài toán thực tế sẽ được thảo luận. Việc này sẽ được thực 
hiện thông qua các ví dụ và cách sử dụng thư viện sklearn. 


28.3.2 Một số hàm kernel thông dụng 
Linear 


Day là trường hợp đơn giản với kernel chính tích vô hướng của hai vector: k(x,z) = x”z. 


Hàm số này, như đã chứng minh trong Chương 26, thỏa mãn điều kiện (28.10). 


Khi sử dung sklearn.svm.SVC, kernel này được chọn bằng cách chon kernel = 'linear'. 


! Xem Kernel method- Wikipedia (htlps://goo.gl/YXet7F) 
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Polynomial 


Hàm kernel của polynomial có dạng 
k(x,z) = (r + +x*z)* (28.12) 


Với d là một số dương, là bậc của da thức. d có thể không là số tự nhiên vì mục đích chính 
của ta không phải là bậc của đa thức mà là cách tính kernel. Polynomial kernel có thể được 
dùng để mô tả hầu hết các đa thức có bậc không vượt quá đ nếu d là một số tự nhiên. 


Khi sử dụng thư viện sklearn, kernel này được chọn bằng cách đặt kernel = 'poly'. Bạn đọc 
được khuyến khích đọc tài liệu chính thức trong scikit-learn tai https: // goo.gl/ QvtFc9. 


Radial basic function 


Radial basic function (RBF) kernel hay Gaussian kernel được sử dụng nhiều nhất trong thực 
tế, và là lựa chọn mặc định trong sklearn. Nó được định nghĩa bởi 


k(x,z) = exp(—7/|x — z||Š), + » 0 (28.13) 


Trong sklearn, kernel này được lựa chọn bằng cách đặt kernel = 'rbf'. 
Sigmoid 


Hàm dạng sigmoid cũng được sử dụng làm kernel, với 
k(x, z) = tanh(yx*z + r) (28.14) 


Trong sklearn, kernel này được lựa chọn bằng kernel = 'sigmoid'. 
Bảng tóm tắt các kernel thông dụng 
Bảng 28.2 tóm tắt các kernel thông dụng và cách sử dụng chúng trong sklearn. 


Bảng 28.2: Bảng các kernel thông dụng 


Tên kernel | Công thức Thiết lập hệ số 

'linear' xTz khóng có hé só 

'poly' (r+ yxT z)? d: degree, y: gamma, r: coefQ 
'sigmoid' | tanh(yxTz +r) +: gamma, r: coef0 

"rb£' exp(—y&x — z823) | y > 0: gamma 


Néu ban muón sú dung các thu vién cho C/C++, các ban có thé tham kháo LIBSVM 
(https:// goo.gl/ Dt7o7r) và LIBLINEAR (https: // goo.gl/ ctD'7a3). 


Kernel tu dinh nghia 


Ngoài các hàm kernel thóng dung nhu trén, cháng ta cüng có thé tu dinh nghia các kernel 
của minh nhu trong hướng dan tai https: // goo.gl/ A9ajzp. 
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sigmoid 


(a) sigmoid kernel. (b) poly kernel. (c) rbf kernel. 


Hình 28.2: Sử dụng kernel SVM để giải quyết bài toán XOR. (a) sigmoid kernel. (b) polynomial 
kernel. (c) RBF kernel. Các đường nét liền là các đường phân lớp, ứng với giá trị của biểu thức 
(28.6) bằng 0. Các đường nét đứt là các đường đồng mức ting với giá trị của biểu thức (28.6) 
bằng +0.5. Trong ba phương pháp, RBF cho kết quả tốt nhất vì chúng cho kết quả đôi xứng, 
hợp lý với dữ liệu bài toán. 


28.4 Ví du minh hoa 
28.4.1 Bài toán XOR 
Chúng ta cùng quay lại với bài toán XOR. Chúng ta biết rằng bài toán XOR không thé giải 


quyết nếu chỉ dùng một bộ phân lớp tuyến tính. Chúng ta cùng giải quyết bài toán này bằng 
SVM với các kernel khác nhau. Kết quả được minh hoạ trong Hình 28.2. 


import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import svm 


# XOR dataset and targets 

X = np.array([[0, 0], [1, 1], [1, 0], [0, 1]]) 

y = np.array([0, 0, 1, 1]) 

# fit the model 

for kernel in ('sigmoid', 'poly', 'rbf'): 
clf = svm.SVC(kernel-kernel, gamma=4, coef0 = 0) 
clf.fit(X, y) 


Ta có các nhận xét đối với mỗi kernel như sau: 


e sigmoid: nghiệm tìm được không thật tốt vì có ba trong bốn điểm nằm chính xác trên 
đường phân chia. Nói cách khác, nghiệm này sẽ rất nhạy cám vói nhiễu. 


e poly: Nghiệm này có tốt hơn nghiệm của sigmoid nhưng kết quả có phần overfitting. 
e rbf: Dữ liệu được tao ra một cách đối xứng, đường phân lớp tìm được cũng tạo ra các 


vùng đối xứng với mỗi lớp. Nghiệm này được cho là hợp ly hơn. Trên thực tế, các rb£ 
kernel được sử dụng nhiều nhất và cũng là lựa chọn mặc dinh trong hàm sklearn. svn. SVC. 


Machine Learning cơ bản https: // machinelearningcoban.com 


CHUONG 28. KERNEL SUPPORT VECTOR MACHINE 362 


sigmoid poly rbf 


(a) sigmoid kernel. (b) poly kernel. (c) rbf kernel. 


Hình 28.3: Sử dụng kernel SVM để giải quyết bài toán với dữ liệu gần phân biệt tuyến tính. a) 
sigmoid kernel. b) polynomial kernel. c) RBF kernel. Các đường nét liền là các đường phân lớp, 
ứng với giá trị của biểu thức (6) bằng 0. Các đường nét đứt là các đường đồng mức ứng với giá 
trị của biểu thức (6) bằng +0.5. Với bài toán này, polynomial kernel cho kết quả tốt hơn. 


28.4.2 Dữ liệu gần linearly separable 
Xét một ví du khác với dữ liệu giữa hai lớp là gan linearly separable nhu Hình 28.3. 


Trong ví dụ này, kernel = 'poly' cho kết quả tốt hơn kernel = 'rb£' vì trực quan cho ta thấy 
rằng nửa bên phải của mặt phẳng nên hoàn thoàn thuộc vào class xanh. sigmoid kernel cho 
kết quả không thực sự tốt và ít được sử dụng. 


28.4.3 Kernel SVM cho MNIST 


Tiếp theo, chúng ta cùng làm một thí nghiệm nhỏ bằng cách áp dụng SVM với RBF kernel 
vào bài toán phân loại 4 chữ số 9, 1, 2, 3 của tập MNIST. Trước hết, chúng ta cần lấy ra 
dữ liệu thuộc các chữ số này. Dữ liệu được chuẩn hoá về đoạn [0, 1] bằng cách chia toàn bộ 
các thành phần cho 255 (giá trị cao nhất của mỗi pixel) 


from __future__ import print, function 

import numpy as np 

from sklearn import svm 

from sklearn.datasets import fetch mldata 

data dir = '../../data' # path to your data folder 

mnist = fetch mldata('MNIST original”, data home-data dir) 


X all = mnist.data/255. # data normalization 
y all = mnist.target 
digits = [0, 1, 2, 3] 
ids = [] 
for d in digits: 

ids.append(np.where(y all == d)[0]) 
selected ids = np.concatenate(ids, axis - 0) 


X = X all[selected ids] 
y = y_all[selected_ids] 
print (‘Number of samples = ', X.shape[0]) 
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Két quá: 


Number of samples = 28911 


Như vậy, có khoảng 29000 điểm dữ liệu tổng cộng. Chúng ta lấy ra 24000 điểm làm tập kiểm 
thử, còn lại là tập huấn luyện. Bộ phân lớp kernel SVM với RBF sẽ được sử dụng. 


from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score 
X train, X test, y train, y test = train test split(X, y, test_size= 24000) 


model = svm.SVC(kernel-'rbf', gamma-.1, coef0 = 0) 
model.fit(X train, y train) 
y. pred = model.predict (X test) 


print("Accuracy: $.2f $$" %(100*accuracy_ score(y test, y_pred))) 


Kết quả: 


Accuracy: 94.22 $ 


Kết quả thu được là khoảng 94%. Nếu chọn nhiều điểm dữ liệu để huấn luyện và thay đổi 
các tham só gamma, coef0, ban đọc có thể sẽ thu được các kết quả tốt hơn. Day là một bài 
toán multi-class classification, và cách giải quyết của thư viện này là one-vs-rest. Nhu đã đề 
cập trong Chương 14, one-vs-rest có nhiều hạn chế vì phải huấn luyện nhiều bộ phân lớp. 
Hơn nữa, với kernel SVM, việc tính toán các kernel cũng trở nên phức tạp khi lượng dit liệu 
và số chiều dữ liệu tăng lên. 


28.5 Tóm tắt 


e Trong bài toán phân lớp nhị phân, nếu dữ liệu của hai lớp là không linearly section, chúng 
ta có thể tìm cách biến đổi dữ liệu sang một không gian mới sao cho trong không gian 
mới ấy, dữ liệu của hai lớp là (gan) linearly separable. 


e Việc tính toán trực tiếp hàm #Ø() đôi khi phức tap và tốn nhiều bộ nhớ. Thay vào đó, ta 
có thể sử dụng kernel trick. Trong cách tiếp cận này, ta chỉ cần tính tích vô hướng của 
hai vector bát kỳ trong không gian mới: k(x,z) = #®(x)f#(z). Thông thường, các hàm 
k(.,.) thỏa mãn điều kiện Merrcer, và được gọi là kernel. Cách giải bài toán SVM với 
kernel hoàn toàn giống với cách giải bài toán soft-margin SVM. 


e Có bón loai kernel thông dung: linear, poly, rbf, sigmoid. Trong đó, rbf được sử dụng 
nhiều nhất và là lựa chọn mặc định trong các thư viện SVM. 


e Source code cho chương này có thể được tìm thấy tai https: //goo.gl/ 6sbds5. 
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Multi-class support vector machine 


29.1 Giới thiệu 
29.1.1 Từ Binary classification tới multi-class classification 


Các phương pháp support vector machine đã đề cập (hard-margin, soft-margin, kernel) đều 
được xây dựng nhằm giải quyết bài toán binary classification, tức bài toán phân lớp với chỉ 
hai lớp dữ lieu (C = 2). Một cách tự nhiên để mở rộng các mô hình này áp dụng cho các bài 
toán multi-class classification, tức có nhiều lớp dà liệu khác nhau (C > 2), là sử dụng nhiều 
binary classifier và các kỹ thuật nhu one-vs-one hoặc one-vs-rest. Cách làm này có những 
han ché nhu dá trinh bày trong Chuong 14. 


Softmax regression (xem Chương 15), là một phương pháp tổng quát của logistic regression, 
được sử dung phó biến nhất trong các mô hình phân lớp hiện nay. Về co bản, thuật toán 
huấn luyện softmax regression di tim ma trận hệ só W € R9*C và vector bias b € RC sao 
cho với một điểm dữ liệu được mô tả bởi một vector đặc trung d chiều, vector z = WTx + b 
có thành phần lớn nhất nằm ở chỉ số tương ứng với nhãn chính xác của x. Vector z, còn 
được gọi là score vector, tiếp tục được đưa qua hàm softmaz để ước lượng xác suất để điểm 
đữ liệu x rơi vào mỗi lớp. 


Trong chương này, chúng ta sẽ thảo luận một phương pháp phổ biến khác cũng được dùng 
cho các bài toán multi-class classification có tên là multi-class S VM. Trong đó, ta cũng phải 
đi tìm ma trận hệ số W và vector bias b sao cho với một điểm dữ liệu x, vector WTx + b 
cũng có thành phần cao nhất tại chỉ số tương ứng với nhãn của x. Tuy nhiên, hàm mất 
mát để ép việc này xảy ra trên tập huấn luyện được xây dựng dựa trên hàm hingle loss 
(của softmax regression là cross entropy loss). Thuật toán tối ưu hàm mất mát này của 
multi-class SVM cũng dựa trên gradient descent. Và mult-class SVM cũng có thể được tích 
hợp vào layer cuối cùng của các neural network để tạo ra một bộ phân lớp khá hiệu quả. 
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Hinh 29.1: Vi du vé cdc búc anh trong 10 lớp của bộ dữ liệu CIFAR1O. 


Trong chương này, chúng ta sẽ tìm hiểu multi-class SVM thông qua một ví dụ về bài toán 
phân loai các bức ảnh thuộc 10 lớp khác nhau trong bộ cơ sở dữ liệu CIFARIO (https: 
// goo.gl/ 9K KbQu). 


29.1.2 Bộ cơ sở dữ lieu CIFAR10 


Bộ cơ sở dữ liệu CIFAR10 gồm 60000 ảnh khác nhau thuộc 10 lớp dữ liệu: plane, car, bird, 
cat, deer, dog, frog, horse, ship, và truck. Mỗi bức ảnh có kích thước 32 x 32 pixel. Một vài ví 
dụ cho mỗi lớp được cho trong Hình 29.1. Tập huấn luyên bao gồm 50000 bức ảnh, tập kiểm 
thử bao gồm 10000 ảnh còn lại. Trong số 50000 ảnh huấn luyện, 1000 ảnh sẽ được lấy ra ngẫu 
nghiên để làm tập validation. Day là một bộ co sở dữ liệu tương đối khó vì kích thước của 
các bức ảnh là nhỏ và các bức ảnh trong cùng một lớp biến đổi rất nhiều về màu sắc, hình 
dáng, kích thước. Thuật toán tốt nhất hiện nay cho bài toán này đã đạt được độ chính xác 
trên 96% (https://goo.gl/wisgK4), sử dung một convolutional neural network nhiều layer 
kết hợp với softmax regression ở layer cuối cùng. Trong chương này, chúng ta sẽ sử dụng 
một mô hình neural network đơn giản không có hidden layer nào và layer cuối cùng là một 
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multi-class SVM dé giải quyết bài toán. Độ chính xác đạt được là khoảng 40%, nhưng cũng 
là đã rất ấn tượng. Chúng ta cùng phân tích multi-class SVM và lập trình mà không sử dụng 
một thư viện đặc biệt nào ngoài numpy. Bài toán này cũng như nội dung chính của chương 
được lấy từ Lecture notes Linear Classifier II - CS231n 2016 (https:// goo.gl/ y3QsDP) và 
Assignment #1 — CS231n 2016 (https:// goo.gl/ 1Qh84b). 


Truóc khi di vào muc xáy dung và tói uu hàm mát mát cho multi-class SVM, chúng ta cán 
làm một chút feature engineering dé tao ra vector đặc trung cho mỗi ảnh. Cách làm này có 
thé được sử dung kèm với các bộ phân lớp khác, không nhất thiết là chỉ multi-class SVM. 


29.1.3 Xây dựng vector đặc trưng 


Chúng ta sẽ sử dụng phương pháp feature engineering đơn giản nhất: lấy trực tiếp tất cả 
các pixel trong mỗi ảnh và thêm một chút chuẩn hoá đữ liệu (data normalization). 


e Mỗi ảnh màu của CIFAR-10 đã có kích thước giống nhau 32 x 32 pixel, vì vậy việc đầu 
tiên chúng ta cần làm là kéo đà¿ mỗi trong ba channel Red, Green, Blue của bức ảnh ra 
thành một vector có kích thước là 3 x 32 x 32 = 3072. 


e Vì mỗi pixel có giá trị là một só tự nhiên từ 0 đến 255 nên chúng ta cần một chút chuẩn 
hóa dữ liệu. Trong Machine Learning, một cách đơn giản nhất để chuẩn hóa dữ liệu là 
center data, tức làm cho mỗi feature có trung bình cộng bằng 0. Một cách đơn giản dé 
làm việc này là ta tính trung bình cộng của tất cả các ảnh trong tập training để được 
ảnh trung binh, sau đó trừ từ tất cả các ảnh di ảnh trung binh này. Tương tự, ta cũng 
dùng ánh trung binh này để chuẩn hoá dữ liệu trong validation set và test set. 


29.1.4 Bias trick 


Thông thường, với một ma trận hệ số W € R?*C, một đầu vào x € R^ và vector bias 
b € R^, chúng ta có thể tính được đầu ra của layer này là: 


f(x, W,b) 2 W?x +b (29.1) 


Dé cho biểu thức trên đơn giản hon, ta có thé thêm một phần từ bằng 1 vào cuối của x và 
ghép vector b vào ma trận W như ví dụ trong Hình 29.2. Bây giờ thì ta chỉ còn một biến 
dữ liệu là W thay vì hai bién dí liệu như trước. Từ giờ trở đi, khi viết W và x, chúng ta 
ngầm hiểu là biến mới và dữ liệu mới như ở phần bên phải của Hình 29.2. 


Tiếp theo, chúng ta viết chương trình lấy dữ liệu từ tập CIFARIO, chuẩn hoá dữ liệu và 
thêm đặc trưng bằng 1 vào cuối mỗi vector. Đồng thời, 1000 dit liệu từ tập huấn luyện cũng 
được tách ra làm tập validation. 
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Hinh 29.2: Bias trick. 


from __future__ import print, function 

import numpy as np 

# need cs231 folder from https://goo.gl/cgJgcG 
from cs231n.data_utils import load CIFAR10 


# Load CIFAR 10 dataset 
cifarl0 dir = 'cs231n/datasets/cifar-10-batches-py' 
X train, y train, X test, y test = load CIFAR10(cifar10 dir) 


# Extract a validation from X train 
from sklearn.model selection import train test split 
X train, X val, y train, y val = train test split(X train, y train, test size- 1000) 


# mean image of all training images 
img mean = np.mean(X train, axis - 0) 


def feature engineering (X): 
X -= img mean # zero-centered 
N = X.shape[0] # number of data point 
X = X.reshape(N, 1) 4$ vectorizetion 


return np.concatenate((X, np.ones((N, 1))), axis = 1) # bias trick 
X train = feature engineering(X train) 
X val — feature engineering(X val) 
X test = feature engineering(X test) 
print('X train shape = ', X train.shape) 
print('X val shape = 7, X val.shape) 
print('X test shape = ', X test.shape) 
Kết quả: 
X_train shape = (49000, 3073) 
X_val shape = (1000, 3073) 


X_test shape (10000, 3073) 
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(normalized) vectorization of input followed by 1 


285.3 | cat score 
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Hình 29.3: Ví du vé cách tính score vector. Khi test, nhãn của dữ liệu được xác định dựa trên 
class có score cao nhât. 


29.2 Xây dung hàm mát mát 
29.2.1 Hinge losss tổng quát cho multi-class SVM 


Trong multi-class SVM, khi kiểm thử, nhãn của một điểm dữ liệu mới được xác định bởi 
thành phần có giá trị lớn nhất trong score vector z = W?x (xem Hình 29.3). Điều này giống 
với softmax regression. Softmax regression sử dụng cross-entropy loss dé ép hai vector xác 
suất bằng nhau, tức ép phần tử tương ứng với nhãn đúng (correct class) trong vector xác 
suất gần với 1, đồng thời khiến các phần tử còn lại trong vector đó gần với 0. Nói cách khác, 
cách làm này khiến cho phần tử tương ứng với correct class càng lớn hơn các phần tử còn 
lại càng tốt. Trong khi đó, multi-class SVM sử dụng một chiến thuật khác cho muc đích 
tương tự dựa trên score vector. Điểm khác biệt là multi-class SVM xây dựng hàm mất mát 
dựa trên định nghĩa của biên an toàn, giỗng như trong hard/soft-margin SVM với hai lớp 
dữ liệu. Multi-class SVM ép thành phần ứng với correct class của score vector lớn hơn các 
phần tử khác, không những thế, nó còn lớn hơn một đại lượng A > 0 gọi là bién an toàn, 
như được mô tả trong Hình 29.4. 


Nếu score tương ứng với correct class lớn hơn các score khác một khoảng bằng một biên an 
toàn A thì không có mát mát nào xáy ra, tức sự mát mát bang 0. Nói cách khác, những score 
nằm ở bên trái điểm x màu đỏ không gây ra mất mát nào. Ngược lại, các điểm có score 
nằm phía phải của điểm x sé bị zử phat, và càng vi phạm nhiều sé bị xử lý ở mức càng cao. 


Để mô tả các mức vi phạm này dưới dạng toán học, trước hết ta giả sử rằng các thành 
phần của score vector được đánh số thứ tự từ 1. Các lớp dữ liệu cũng được đánh số thứ tự 
từ 1. Giả sử rằng điểm dữ liệu x đang xét thuộc class và score vector của nó là vector 
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E : margin — A "y 


| D score 
< >i 


Li L| 
scores for other classes | Zj scores for the correct class 


level of violation 


Hình 29.4: Mô tå hinge loss trong multi-class SVM. Multi-class SVM ép score cúa correct class, 
được minh hoạ bởi điểm màu lam, cao hơn các score khác, minh hoạ bởi các điểm màu lục, môt 
khoáng cách an toàn A là đoạn màu đỏ. Những score khác nằm trong vùng an toàn (phía trái 
của điểm x màu đỏ) sẽ không gây ra mát mát gì, những scores nằm trong hoặc bên phải vùng 
màu đỏ đã vi phạm quy tắc và cần được xử phạt. 


z = W*x. Nhu vậy, score của correct class là z}, score của các lớp khác là các 2;,1 Æ y. 
Trong Hinh 29.4, các score z; nằm trong vùng an toàn và z; trong vùng vi phạm. Với mỗi 
score z; trong vùng an toàn, loss bằng 0. Với mỗi socre z; vượt quá điểm an toàn (điểm x), 
loss do nó gây ra được tính bằng lượng vượt quá so với điểm x đó, đại lượng này có thể 
tính được là z; — (zy — A) = A— zy + 2j. 


Tóm lại, với một score zj, j # y, loss do nó gây ra có thể được viết gon thành 
max(0, A — z, + z;) = max(0, A — WIX + w, x) (29.2) 


trong đó w; la cot thứ 7 của ma trận hệ số W. Như vậy, với một điểm dữ liệu Xa n = 
1,2,..., N või nhán yn, tóng công loss do nó gây ra là 


L= » max(0,A — zy, + Z7) 


3Z2Un 
với z^ = WTx, = [27,2%,...,22]" € RX là score vector tương ứng với điểm dữ liệu xạ, 
Với toàn bộ các điểm dữ liệu X = [Xi,Xa,...,Xw], loss được định nghĩa là 
|J 
L(X, y, W) = 5 XO X max(0, A — z7 + 27) (29.3) 
n=1 3n 
với y = [y1, Ya, . --, yn] là vector chứa corect class của toàn bộ các điểm trong training set. 


29.2.2 Regularization 


Điều gì sẽ xảy ra nếu nghiệm tìm được W là một nghiệm hoàn hảo, tức không có score nào 
vi phạm và hàm mát mát (29.3) đạt giá trị bằng 0? Nói cách khác, 


n n T T = Ne m e 
A—z +27 <05 AS Wy Xp — W¡Xp Vn = 1,2,...,N;j = 1,2,..., C; j ZW 


Điều này có nghĩa là KW cũng là một nghiệm của bài toán với k > 1 bất kỳ. Việc bài toán 
có vô số nghiệm và có những nghiệm có những phần tử tiến tới vô cùng khiến cho bài toán 
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rat không ón dinh (unstable) khi tối ưu. Một phương pháp quen thuộc để tránh hiện tượng 
này là cộng thêm số hang regularization vào hàm mát mát. Số hang này giúp ngăn chán việc 
các hệ số của W trở nên quá lớn. Và dé cho hàm mát mát vẫn có dao hàm đơn giản, chúng 
ta lại sử dụng lz regularization 


N 
1 A 
L(X, y, W) = N 1 > max(0, A — WI Xn + wW? Xu) + zll W|l2 (29.4) 


n=1 jZUn 


regularization loss 
data loss 


với A là một giá trị duong giúp cân bằng giữa data loss và regularization loss, thường được 
chọn bằng cross-validation. 


29.2.3 Hàm mát mát của multi-class SVM 


Có hai hyperparameter trong hàm mát mát (29.4) là A và A, câu hỏi đặt ra là làm thé nào dé 
chon ra cáp giá trị hợp lý nhất cho từng bài toán. Liệu chúng ta có cần làm cross-validation 
cho từng giá trị không? Trên thực té, người ta nhận thấy rằng A có thé được chọn bằng 
1 mà không ảnh hưởng nhiều tới chất lượng của nghiệm (https: // goo.gl/ NSyfQi). Từ đó, 
hàm mất mát cuối cùng cho multi-class SVM có dạng 


N 
1 À 
L(X, y, W) = N p» » max(0, 1 — wy x, + Wj Xu) + (Wile (29.5) 


n=1 j#yn 


Một lần nữa, chúng ta có thể dùng gradient descent dé tim nghiệm cho bài toán tối ưu không 
ràng buộc này. Việc này sẽ được thảo luận kỹ trong Mục 29.3. 


29.2.4 Soft-margin SVM là một trường hợp đặc biệt của multi-class SVM 


Điều này có thể được nhận ra bằng cách xét từng điểm dữ liệu. Trong (29.5), nếu số lớp dữ 
liệu C = 2, tam bó qua regularization loss, hàm mát mát tại mỗi điểm dit liệu trở thành 


fam p» max(0, 1 — WI Xu + W, Xn) (29.6) 
JF Yn 


Xét hai trường hợp: 


e y, = 1 > Ln = max(0, 1 — wi x, + Wwä x„) = max(0, 1 — (1)(wi — we)? 


e y, = 2 => Ln = max(0,1 — W2 Xx„ + w1x,) = max(0, 1 — (—1)(Ww¡ — w3)?x) 


Nếu ta thay y, = —1 cho dữ liệu thuộc lớp có nhãn bằng 2, va đặt w = w — wa, hai trường 
hop trén có thé dugc viét gon thành 


Ln = max(0,1 — y, w^ Xn) 


Dày chính là hinge loss cho soft-margin SVM. 
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29.3 Tinh toán ham mat mat va dao ham cúa nó 


Vì ham mat mát của multi-class SVM hơi phúc tạp một chút, đạo ham của nó theo W cũng 
khó có thể được suy ra dễ dàng. Chúng ta cần kiểm tra liệu đạo hàm tính được có thực 
sự chính xác không trước khi thực hiện gradient desenct. Phương pháp quen thuộc được sử 
dụng là tính numerical gradient descent. Dé thực hiện phương pháp này, chúng ta cũng cần 
tính giá trị của hàm mất mát tại một điểm W bất kỳ. 


Việc tính toán giá trị của hàm mất mát và đạo hàm của nó tại W bất kỳ không những cần 
sự chính xác mà còn cần được thực hiện một cách hiệu quả. Để đạt được việc này, chúng ta 
sẽ làm từng bước một. Bước thứ nhất là đảm bảo rằng các tính toán là chính zác, dù cách 
tính có thể rất chậm. Bước thứ hai, ta phải đảm bảo có một cách tính hiệu quá dé thuật 
toán chạy nhanh hơn. Hai bước này nên được thực hiện trên một lượng dữ liệu nhỏ để có 
thể nhanh chóng thấy được kết quả. Việc tính numerical gradient trên dit liệu lớn thường 
tốn rất nhiều thời gian. Các quy tắc này cũng được áp dụng với các bài toán tối ưu khác có 
sử dụng đạo hàm trong quá trình tìm nghiệm. 


Hai mục tiếp theo sẽ mô tả hai bước đã nêu ở trên. 
29.3.1 Tính hàm mát mát và đạo hàm một cách chính xác 


Dưới đây là cách tính đơn giản cho hàm mát mát và đạo hàm trong (29.5) với hai vòng for. 
Chú ý thành phần regularization. 


def svm loss naive(W, X, y, reg): 
''" calculate loss and gradient of the loss function at W. Naive way 


W: 2d numpy array of shape (d, C). The weight matrix. 
X: 2d numpy array of shape (N, d). The training data 
y: 1d numpy array of shape (N,). The training label 


reg: a positive number. The regularization parameter 
pr 
d, C, N = W.shape, X.shape[0] # data dim, number of classes, number of points 
loss = 0 
dW = np.zeros like(W) 
for n in xrange(N): 
xn = X[n] 
score = xn.dot (W) 
for j in xrange(C): 
if j == y[n]: 
continue 
margin = 1 - score[y[n]] + score[j] 
if margin > O0: 
loss += margin 
dW[:, j] += xn 


dW[:, yln]] -= xn 
loss /= N 
loss += 0.5*reg*np.sum(W * W) 
dw /= N 


dW += reg*W 
return loss, GW ## continue on next page 
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# random, small data 

d, C, N = 100, 3, 300 

reg = .1 

W_rand = np.random.randn(d, C) 
np.random.randn(N, d) 
np.random.randint (0, C, N) 


X_rand 
y_rand 


# sanity check 


print ("Loss with reg = 0 :’, svm loss naive(W rand, X rand, y rand, 0) [0]) 
print (Loss with reg = 0.1:',svm loss naive(W rand, X rand, y rand, .1)[0]) 
Két quà: 

Loss with reg = 0 : 12.5026818221 


ll 
o 
p 


Loss with reg : 27.7805360552 


Cách tính với hai vòng for lồng nhau như trên mó tả lại chính xác biểu thức (29.5) nên sai 
sót, nếu có, có thể được kiểm tra và sửa lại dễ dàng. Việc kiểm tra ở cuối cho cái nhìn ban 
đầu về hàm mát mát: dương và không có regularization sẽ có loss tong cộng nhỏ hơn. 


Cách tính đạo hàm cho phần data loss phía trên dựa trên nhận xét sau đây: 


0 néul—w Xp + wj X, < Ú 


T 
Un 
T 


— T T = » 
Vw,, max(0, 1 — w;, X» + W} Xn) l —x„ nếu 1 — w? x, + wÍx, > 0 (29.7) 
0 nếu1— wT x„+w†x„<0 
us (Up woe A l x, nếu 1 — wy Xn + Wj Xp > 0 ND) 


Ró ràng là các dao hàm này khóng xác dinh tai các diém mà 1 — W? Xn + Wj Xn = 0. Tuy 
nhiên, khi thực hành, ta có thể giả sử rằng tại 0, các đạo hàm này cũng bằng 0. 


Để kiểm tra lại cách tính đạo hàm như trên dựa vào (29.7) và (29.8) có chính xác không, 
chúng ta cần làm một bước quen thuộc là so sánh nó với numerical gradient. Nếu sự sai 
khác là nhỏ, nhỏ hơn 1e—7 thì ta có thể coi là gradient tính được là chính xác. Bạn đọc có 
thế tự coi đây như một bài tập nhỏ. 


Khi sự khác nhau giữa hai cách tính đạo hàm là nhỏ, chúng ta có thể yên tâm khi nói rằng 
cách tính gradient đã thỏa mãn sự chính xác, chúng ta cần tính nó một cách hiệu quả nữa. 


29.3.2 Tính hàm mát mát và đạo hàm một cách hiệu quả 


Các cách tính hiệu quả thường không chứa các vòng for mà được viết gon lại dưới dang ma 
trận và vector (vectorization). Dé dễ hình dung, chúng ta cùng quan sát Hình 29.5. Ó đây, 
chúng ta tạm quên phần regularization loss đi vì cả loss và đạo hàm của phần này đều có 
cách tính đơn giản. Với phần data loss, chúng ta cũng bó qua hệ số =. 
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Z= WTX max(0, 1— Zyn + 27) 
OL data A 
sĩ EXE 01 | -0:2 om 0 | 6 `: ' 5 ưa 2X1 
OLda aro 
wi 15 15 25 05 | 0 Meo A — ow. —X1—X3 
wl [xixoxa] = — — OL data 
3, -0.2 | 2.5 | 3.0 0 | © 15 @ | <1 [4 > ðw; — d F X3 
w4 OL data — 
Am || 143 || 340 071031 0 1 il Om —> “Ow, — X1 + X2 
y = (1,3, 2] 
Lgata = 0.5 + 0.7 + 0.3 + 1.5 = 3.0 


Hình 29.5: Mô phỏng cách tính gid trị và dao hàm của hàm mat mát trong multi-class SVM. 


Giả sử rằng có bốn lớp dữ liệu và mini-batch X gồm có ba điểm dữ liệu X = [xi x» x3]. Ba 
điểm này lần lượt thuộc vào các lớp 1, 3, 2 (vector y). Các ô có nền màu đỏ nhạt ở mỗi cột 
tương ứng với correct class của điểm dữ liệu của cột đó. Các bước tính loss và gradient có 
thể được hình dung như sau: 


e Bước 1: Tính score matriz Z = WTX. 


e Bước 2: Với mỗi ô, tính max(0,1 — WI, Xn + WX). Chú ý rằng ta không cần tính các ô 
có nền màu đỏ nhạt và có thể coi chúng bằng 0 vì biểu thức data loss không chứa thành 
phần j = yn. Sau khi tính được giá tri của từng ô, ta chỉ quan tâm tới các ô có giá tri 
lớn hơn 0 - là các 6 được tô nền màu xanh lục. Lấy tổng của tất cả các phần tử ở các 6 
xanh lục, ta sẽ được data loss. Ví dụ, nhìn vào ma trận màu ở giữa, giá trị ở hàng thứ 
hai, cột thứ nhất bằng bằng max(0, 1 — 2 + 1.5) = max(0,.5) = .5. Giá trị ở hàng thứ ba, 
cột thứ nhất bằng max(0, 1 — 2 + (—0.2)) 2 max(0, —1.2) = 0. Giá trị ở hàng thứ tư, cột 
thứ nhất bằng max(0, 1 — 2 + 1.7) = 0.7. Tương tự như thế với các cột còn lại. 


e Bước 3: Theo công thức (29.7) và (29.8), với ô màu lục ở hàng thứ hai, cột thứ nhất 
(ứng với điểm dữ liệu x1), đạo hàm theo vector hệ số wa sẽ được cộng thêm một lượng 
x, và đạo hàm theo vector hệ số w sé bị trừ đi một lượng xı. Như vậy, trong cột thứ 
nhất, có bao nhiêu ô màu lục thì có bấy nhiêu lần đạo hàm của w¡ bị trừ đi một lượng 
xị. Xét ma trận màu bên phải, giá trị ở ô trong hàng thứ i, cột thứ 7 là hệ số của dao 
hàm theo w; gây ra bởi điểm dữ liệu xj. Tất cá các 6 màu lục đều có giá trị bằng 1. Ô 
màu đỏ ở cột thứ nhất phải bằng -2 vì cột đó có hai ô màu lục. Tương tự với các ô màu 
lục và đỏ còn lại. 


e Bước 4: Dây gid cộng theo các hàng, ta sẽ được đạo hàm theo hệ số của lớp tương ứng. 


Trong đoạn code dưới đây, correct_class_score chính là tập hợp các giá trị trong các ô màu 
đỏ ở khối thứ nhất. 
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# more efficient way to compute loss and grad 
def svm_loss_vectorized(W, X, y, reg): 

d, C = W.shape 

N = X.shape[0] 

loss = 0 

dW = np.zeros_like (W) 


Z = X.dot(W) # shape of (N, C) 
id0 = np.arange(Z.shape[0]) 


correct_class_score = Z[id0, y].reshape(N, 1) # shape of (N, 1) 
margins = np.maximum(0, Z - correct class score + 1) + shape of (N, C) 
margins[id0, y] = 0 

loss = np.sum(margins) 

loss /= N 


loss += 0.5 * reg * np.sum(W * W) 


F = (margins > 0) .astype(int)* shape of (N, C) 
F[np.arange(F.shape[0]), y] = np.sum(-F, axis = 1) 
dW = X.T.dot(F)/N + reg*W 

return loss, dW 


Đoạn code phía trên không chứa vòng for nào. Dé kiểm tra tính chính xác và hiệu quả của 
hàm này, chúng ta cần kiểm chứng ba điều. (i) Giá tri hàm mát mát đã chính xác chưa. (ii) 
Giá trị đạo hàm đã chính xác chưa. (iii) Cách tính đã thực sự hiệu quả chua. Ba điều này 
có thể được kiểm chứng thông qua đoạn code dưới đây. 


d, C = 3073, 10 
W_rand = np.random.randn(d, C) 
import time 


tl = time.time () 

11, dW1 = svm_loss_naive(W_rand, X_train, y_train, reg) 

t2 = time.time() 

12, dW2 = svm loss vectorized(W rand, X train, y train, reg) 
t3 = time.time() 

print ('Naive - fun time:', t2 = tl, 'ís)') 

print (’Vectorized == run time:', t3 - t2, '(s)') 

print (‘loss difference:', np.linalg.norm(11 - 12)) 
print('gradient difference:', np.linalg.norm(dW1 - dW2)) 


Kết quả: 
Naive -- run time: 7.34640693665 (s) 
Vectorized -- run time: 0.365024089813 (s) 


loss difference: 8.73114913702e-11 
gradient difference: 1.87942037251e-10 


Két quà cho tháy cách tính vectorization nhanh hon so vói cách tính naive khoáng 20 làn. 
Hon nữa, su chênh lệch giữa kết qua của hai cách tính là rất nhỏ, đều nhỏ hon 1e— 19; ta có 
thể sử dụng cách tính vectorization để cập nhật nghiệm sử dụng mini-batch gradient descent. 
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29.3.3 Mini-batch gradient descent cho multi-class SVM 


Vói các ham dá viét, chúng ta có thé thuc hién viéc huán luyén multi-class SVM bang doan 
code duói day. 


# Mini-batch gradient descent 
def multiclass_svm_GD(X, y, Winit, reg, lr=.1, \ 
batch_size = 1000, num_iters = 50, print_every = 10): 
W = Winit 
loss_history = [] 
for it in xrange(num_iters): 
mix ids = np.random.permutation(X.shape[0]) 
n batches = int (np.ceil (X.shape[0]/float (batch size))) 
for ib in range (n batches): 
ids = mix ids[batch size*ib: min(batch_size* (ib+1), X.shape[0])] 
X batch = X[ids] 
y batch = ylids] 
lossib, dW = svm loss vectorized(W, X batch, y batch, reg) 
loss history.append(lossib) 


W -= lr*dW 
if it % print_every == 0 and it > 0: 
print (it %d/%d, loss = $f' $(it, num iters, loss history[it])) 


return W, loss history 


d, C = X train.shape[1], 10 
= .1 
W = 0.00001*np.random.randn(d, C) 


W, loss_history = multiclass_svm_GD(X_train, y_train, W, reg, lr = le-8, num_iters = 
50, print_every = 5) 


Két qua 

epoch 5/50, loss = 5.482782 
epoch 10/50, loss = 5.204365 
epoch 15/50, loss = 4.885159 
epoch 20/50, loss = 5.051539 
epoch 25/50, loss = 5.060423 
epoch 30/50, loss = 4.691241 
epoch 35/50, loss = 4.841132 
epoch 40/50, loss = 4.643097 
epoch 45/50, loss = 4.691177 


Ta thay rằng giá tri loss có xu hướng giảm va hội tụ. Giá trị này sau mỗi vòng lặp được 
minh hoạ trong Hình 29.6. 


Sau khi đã tìm được ma trận hệ số W đại diện cho mô hinh multi-class SVM, chúng ta cần 
viết các hàm xác định nhãn của các điểm dữ liệu mới và đánh giá độ chính xác của mô hình 
như dưới đây: 
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Hinh 29.6: Lich sú loss qua 
các vòng lặp. Ta thấy rằng 


N 


loss function 
o 


loss có xu hướng giảm và hội 
tu khá nhanh. 


T 
0 500 


T 
1000 


T T T 
1500 2000 2500 


number of iterations 


def 
Z = X.dot (W) 
return np.argmax(Z, 
def evaluate(W, X, y): 
y pred - 
acc - 
return acc 


multisvm predict(W, X): 


axis-1) 


multisvm predict (W, X) 
100*np.mean(y pred -- y) 


Việc tiếp theo là sử dung tập validation dé chon ra các bộ tham só mô hinh phù hợp. Có hai 
tham só trong thuát toán tói uu multi-class SVM: regularization và learning rate. Hai tham 
só này sé dugc tim dua trén các cáp giá tri cho truóc. Bó giá tri khión cho dó chính xác cúa 
mô hình trên tập validation cao nhất sẽ được dùng để đánh giá tập kiểm thử. 


lrs [1e-9, le-8, le-7, le-6] 
regs = [0.1, 0.01, 0.001, 0.0001] 
best_W = 0 

best_acc = 0 


for lr in lrs? 
for reg in regs: 
W, loss history = 


multiclass svm GD(X train, 


y train, W, reg, \ 


lr = 1e-8, num iters = 100, print every = 1e20) 
acc = evaluate(W, X val, y val) 
print('lr = $e, reg = $e, loss = $f, validation acc = $.2f' %(lr, reg, 


loss history[-1], acc)) 
if acc » best acc: 
best acc = acc 

best_W = W 
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Két qua: 

lr = 1.000000e-09, reg = 1.000000e-01, loss = 4.422479, validation acc = 40.30 
lr = 1.000000e-09, reg = 1.000000e-02, loss = 4.474095, validation acc = 40.70 
lr = 1.000000e-09, reg = 1.000000e-03, loss = 4.240144, validation acc = 40.90 
lr = 1.000000e-09, reg = 1.000000e-04, loss = 4.257436, validation acc = 41.40 
lr = 1.000000e-08, reg = 1.000000e-01, loss = 4.482856, validation acc = 41.50 
lr = 1.000000e-08, reg = 1.000000e-02, loss = 4.036566, validation acc = 41.40 
lr = 1.000000e-08, reg = 1.000000e-03, loss = 4.085053, validation acc = 41.00 
lr = 1.000000e-08, reg = 1.000000e-04, loss = 3.891934, validation acc = 41.40 
lr = 1.000000e-07, reg = 1.000000e-01, loss = 3.947408, validation acc = 41.50 
lr = 1.000000e-07, reg = 1.000000e-02, loss = 4.088984, validation acc = 41.90 
lr = 1.000000e-07, reg = 1.000000e-03, loss = 4.073365, validation acc = 41.70 
lr = 1.000000e-07, reg = 1.000000e-04, loss = 4.006863, validation acc = 41.80 
lr = 1.000000e-06, reg = 1.000000e-01, loss = 3.851727, validation acc = 41.90 
lr = 1.000000e-06, reg = 1.000000e-02, loss = 3.941015, validation acc = 41.80 
lr = 1.000000e-06, reg = 1.000000e-03, loss = 3.995598, validation acc = 41.60 
lr = 1.000000e-06, reg = 1.000000e-04, loss = 3.857822, validation acc = 41.80 


Như vậy, độ chính xác cao nhất cho tap validation là 41.9%. Ma trận hệ số W tốt nhất dá 
được lưu trong biến best_w. Ap dụng mô hình này lên tập kiểm thử: 


acc = evaluate (best_W, X test, y test) 


print('Accuracy on test data = 32f $$'$acc) 
Két quả: 
Accuracy on test data = 39.88 $ 


Như vậy, kết quả đạt được rơi vào khoảng gần 40 %. Bạn doc có thể thử với các bộ tham só 
khác và có thể đạt được kết quả tốt hơn một vài phần trăm. 


29.3.4 Minh họa nghiệm tìm được 


Để ý rằng mỗi w; có chiều giống như chiều của dữ liệu. Bằng cách bó ra các hệ số tương 
ứng với bias và sếp xép lại các điểm của mỗi trong 10 vector hệ số tìm được, chúng ta sẽ 
thu được các bức ảnh cũng có kích thước 3 x 32 x 32 như mỗi ảnh nhỏ trong cơ sở dữ liệu. 
Hình 29.7 mô tả hệ số tìm được của mỗi w,. 


Ta thấy rằng hệ số tương ứng với mỗi lớp mô tả hình dạng khá giống với các bức ảnh trong 
lớp tương ứng, ví dụ như car và truck trông khá giống với các bức ảnh trong lớp car và 
truck. Hệ só của ship và plane có mang màu xanh của nước biển và bầu trời. Trong khi horse 
trông giống như một con ngựa hai đầu; điều này dễ hiểu vì trong tập training, các con ngựa 
có thể quay đầu về hai phía. Có thể nói theo một cách khác rằng các hệ số tìm được được 
coi như là các ánh dai diện cho mỗi lớp. Vì sao chúng ta có thể nói như vậy? 
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plane car bird cat deer frog horse ship truck 


Hình 29.7: Minh họa hệ só tim được dưới dạng các bức ảnh. 


Cùng xem lại cách xác định class cho một dữ liệu mới được thực hiện bằng cách tim vị trí 
của giá trị lớn nhất trong score vector WT x, tức 


class(x) = arg max |W; X 
i=1,2,..., 


Dé ý rằng tích vô hướng chính là đại lượng đo sự tương quan giữa hai vector. Dai lượng này 
càng lớn thì sự tương quan càng cao, tức hai vector càng giống nhau. Như vậy, việc đi tìm 
nhãn của một bức ảnh mới chính là việc đi tìm bức ảnh đó gần với bức ảnh dai điện cho 
lớp nào nhất. Việc này khá giống với K-nearest neighbors, nhưng thay vì thực hiện KNN 
trên toàn bộ training data, chúng ta chỉ thực hiện trên 10 bức ảnh đại diện tìm được bằng 
multi-class SVM. Lập luận này cũng được áp dụng với softmax regression. 


29.4 Thảo luận 


e Giống như softmax regression, multi-class SVM vẫn được coi là một bộ phân lớp tuyến 
tính vì đường ranh giới giữa các lớp là các đường tuyến tính. 


e Kernel SVM cũng hoạt động khá tốt, nhưng việc tính toán ma trận kernel có thể tốn nhiều 
thời gian và bộ nhớ. Hơn nữa, việc mở rộng nó ra cho bài toán multi-class classification 
thường không hiệu quả bằng multi-class SVM vì kỹ thuật được sử dụng vẫn là one-vs-rest. 
Một ưu điểm nữa của multi-class SVM là nó có thể được tối ưu bằng các phương pháp 
gradient descent, phù hợp với các bài toán với dí liệu lón. Việc đường ranh giới giữa các 
lớp là tuyến tính có thể được giải quyết bằng cách kết hợp nó với các deep neurel network. 


e Có một cách nữa mở rộng hinge loss cho bài toán multi-class classification là dùng loss: 
max(0, 1 — wi Xn + maX/z„„ W; Tx„). Dây chính là vi pham lớn nhất, so với tổng vi pham 
mà chúng ta sử dụng trong bài này. 


e Trên thực té, multi-class SVM và softmax regression có hiệu quả tương đương nhau (xem 
https: // goo.gl/ zLccj3). Có thé trong một bài toán cu thể, phương pháp này tốt hơn 
phương pháp kia, nhưng điều ngược lại xảy ra trong các bài toán khác. Khi thực hành, 
nếu có thể, ta có thể thử cả hai phương pháp rồi chọn phương pháp cho kết quả tốt hơn. 
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Phuong pháp nhán tú Lagrange 


Việc tối thiểu (tối đa) một hàm số một biến liên tục, khả vi, với tập xác định là một tập 
mó! thường được thực hiện dựa trên việc giải phương trình đạo hàm của hàm số đó. Gọi 
hàm số đó là f(x) : R — R, giá trị nhỏ nhất hoặc lớn nhất nếu có của nó thường được tìm 
bằng cách giải phương trình f'(x) = 0. Chú ý rằng điều ngược lại không đúng, tức một điểm 
thoả mãn đạo hàm bằng không chưa chắc đã làm cho hàm số đạt giá trị nhỏ nhất hoặc lớn 
nhất. Ví du ham f(r) = z có 0 là một điểm dừng nhưng không phải là điểm cực trị. Với 
hàm nhiều biến, ta cũng có thể áp dụng quan sát này. Tức chúng ta cần đi tìm nghiệm của 
phương trình đạo hàm theo mỗi bién bằng không. 


Cách làm trên đây được áp dụng vào các bài toán tối uu không ràng buộc, tức không có 
điều kiện nào của biến X. Với bài toán mà ràng buộc là một phương trình: 


x = arg min, fo(x) 


thoả mãn: f(x) =0 (A.1) 


ta cũng có một phương pháp để đưa nó về bài toán không ràng buộc. Phương pháp này có 
tên là phương pháp nhân tú Lagrange. 


Xét hàm số L(x,A) = fo(x) + Afi(x) với biến A được goi là nhân tú Lagrange (Lagrange 
multiplier). Hàm só L(x, A) được gọi là hàm hỗ trợ (auxiliary function), hay the Lagrangian. 
Người ta đã chứng minh được rằng, điểm optimal value của bài toán (A.1) thoả mãn điều 
kiện VxxZ(x, A) = 0. Điều này tương đương với: 
Vx£(x, A) = Vxfo(x) + AVxfi(x) =0 (A.2) 
VA£(x,À) = fi(x) = 0 (A.3) 


Dé ¥ rang diéu kién thú hai chinh lá rang buóc trong bai toán (A.1). 


! Xem thêm: Open sets, closed sets and sequences of real numbers (https: // goo.gl/ AgKhCn). 
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Việc giải hệ phương trình (A.2) - (A.3), trong nhiều trường hợp, don giản hơn việc trực tiếp 
đi tìm nghiệm của bài toán (A.1). 


Ví dụ 1: 


Tim giá trị lớn nhất và nhỏ nhất của hàm số fo(x,y) = x + y, biết rằng x,y thoả mãn điều 
kiện f(x, y) = z? + y? =2. 


Lời giải: Điều kiện ràng buộc có thể được viết lại dưới dang x? + y? — 2 = 0. Lagrangian 
của bài toán này là: L(x, y, A) = z+y-+À(z2+?—2). Các điểm cực trị của hàm só Lagrange 
phải thoả mãn điều kiện 


l1+2Àz =0 
Vzya Llr, y, A =0 4 1? 2A0@=D (A.4) 
a +? =2 


Từ hai phương trình đầu của (A.4) ta suy rar = y = ue Thay vào phuong trinh cuói ta sé 
có A? = t > À = +¿š. Vậy ta được 2 cặp nghiệm (x,y) € {(1, 1), (-1, —1)). Bằng cách thay 
các giá tri này vào hàm mục tiêu, ta tìm được giá trị nhỏ nhất và lớn nhất của bài toán. 

Ví dụ 2: & norm của ma trận Chúng ta đã quen thuộc với l norm của một vector 


x: ||x||a = vx^x. Dựa trên /¿ norm của vector, (9 norm của một ma trận A € R”*” được 
ký hiệu là ||A||a và được định nghĩa nhu sau: 


A |XT ATA 
| All2 = max 5 T — max RT dl xcm" (A.5) 
X|» X x 


Bai toán tói uu này tuong duong vói: 


max (x7 A" Ax) 


thoả mãn: xx = 1 ae) 
Lagrangian của bài toán nay là 
L(x, à) = x A Ax + A(1 — x? x) (A.7) 
Các điểm cực trị của hàm số Lagrange phải thoả mãn 
V&£ —2AT" Ax — 22x = 0 (A.8) 
V,£=1-x'x=0 (A.9) 


Từ (A.8) ta có AT Ax = Ax. Vay x phải là một vector riêng của ATA và A chính là trị riêng 
tương ứng. Nhân cả hai về của biểu thức này với x” vào bên trái và sử dụng (A.9), ta thu 
được 

xl AT Ax = Ax! x =X (A.10) 


Từ đó suy ra || Ax||; dat giá trị lớn nhất khi A dat giá trị lớn nhất. Nói cách khác, A phải là 
trị riêng lớn nhất của ATA. Vậy, Allo = Amax (ATA). 
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Các trị riêng của ATA còn được goi là singular value của A. Tóm lại, 2 norm của một ma 
trận là singular value lớn nhất của ma trận đó. 


Hoàn toàn tương tự, nghiệm của bài toán 


min || Ax || (A.11) 


lxll<1 


chính là một vector riêng ứng với singular value nhỏ nhất của A. 
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partial derivative-dao hám riéng, 30 
patch, 77 
PCA-zem principle component analysis, 254 
pdf, rem probability density function, 40 
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polynomial regression, 89, 92 
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negative definite, 24 
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softmax regression, 180 
spam filtering, 132 
span, 17 
sparsity, 97 
spectral clustering, 124 
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Support Vector Machine, 328 
Hard Margin SVM, 328 
Support vector machine 
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support vector machine 
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symmetric matrix, 13 
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task, 64 
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training error, 93 
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transfer learning, 80 
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validation, 94 
cross-validation, 95 
k-fold cross-validation, 95 
leave-one-out, 95 

vector-valued function, 31 

vectorization-vector hoá, 74 


weak duality, 321 
weight decay, 97 
weight vector-vector trọng số, 83 


Machine Learning cơ bản 


https: // machinelearningcoban. com 


